Pemanfaatan Library Pandas.

Pada kesempatan kali ini, saya akan membahas tentang PANDAS, pandas adalah suatu library di Python yang paling populer untuk analisis data.

Pandas adalah suatu library yang open source, menyediakan performance yang sangat baik, struktur data yang mudah digunakan dan alat analisis data untuk Python. Pandas akan menjadi langkah besar kamu dalam perjalanan mempelajari data science.

Untuk menggunakan pandas, kamu terlebih dahulu mesti menginstall nya di command prompt dengan mengetikan

pip install pandas


Tunggu sampai installasi selesai, ketika kamu hendak menginstall pandas, tidak hanya pandas yang akan di install, tapi juga beserta dependency nya, di gambar, ketika menginstall pandas kamu juga menginstall pytz dan numpy.


Objek Pandas : Series vs Dataframe

Series dan Dataframe ini adalah suatu objek tempat kita menyimpan data secara terstruktur. Perbedaan dari Series dan DataFrame ini terletak pada strukturnya dan juga attribute dan method-method yang mereka miliki, untuk perbedaan strukturnya adalah sebagai berikut :

  1. Series adalah objek 1 dimensi
  2. DataFrame adalah suatu objek 2 dimensi, mirip seperti tabel

Series

Series adalah suatu objek satu dimensi yang dapat menyimpan berbagai jenis tipe data seperti integer, string, dan lain sebagainya. tipe data dari objek series ini harus seragam. berikut contoh membuat list :

import pandas as pd

x = pd.Series([6,3,4,6])
print(x)
=============
0    6
1    3
2    4
3    6
dtype: int64

Series memiliki satu sumbu saja, dari contoh di atas sumbu tersebut berada baris baris, yaitu 0, 1, 2, 3. kita bisa mengubah sumbu tersebut dengan sebagai berikut :

# cara pertama
x.index = ['a', 'b', 'c', 'd']
print(x)
===========
a    6
b    3
c    4
d    6
dtype: int64


# cara kedua
x = pd.Series([6,3,4,6], index=['a', 'b', 'c', 'd'])
print(x)
===========
a    6
b    3
c    4
d    6
dtype: int64

# check tipe data
print(type(x))
================
pandas.core.series.Series

Perhatikan: jumlah index harus sama dengan jumlah data.

DataFrame

DataFrame adalah suatu objek 2 dimensi tempat menyimpan data dengan lebih terstruktur. dataframe memiliki 2 index, yaitu index baris dan index columns. Dalam satu column dataframe harus memiliki tipe data yang sama. tapi antar columnnya dataframe bisa memiliki jenis data yang berbeda. untuk lebih jelasnya perhatikan contoh berikut :

import pandas as pd

df = pd.DataFrame({'tipe_int': [50, 21], 'tipe_string': ['a', 'b']})
print(df)
==========
tipe_int    tipe_string
0 	50 	a
1 	21 	b

# check tipe data
print(type(df))
==========
<class 'pandas.core.frame.DataFrame'>


Membaca Data dari File

Membaca data dari file adalah hal pertama yang dilakukan dalam suatu pekerjaan data science. maka hal ini sangat penting.

Ada beberapa tipe file yang biasa di gunakan untuk menyimpan data, seperti database, excel, csv. disini akan di jelaskan beberapa saja tentang cara membaca file dari berbagai sumber tersebut. akan di jelaskan 2 yaitu csv dan excel karena csv dan excel adalah sumber yang biasa di gunakan untuk menyimpan data karena kemudahannya. ok kita langsung saja.

Pandas menyediakan metode yang berbeda untuk membaca file dengan tipe berbeda. untuk membaca file bertipe csv pandas menggunakan suatu metode read_csv(), untuk membaca file bertipe excel pandas menggunkan suatu metode bernama read_excel. perhatikan contoh berikut :

# membaca dari csv
df_from_csv = pd.read_csv('jabar-corona-virus-case.csv')

# membaca data dari excel
df_from_excel = pd.read_excel('jabar-corona-virus-case.xlsx')

Untuk menggunakan method tersebut kita hanya perlu memasukan argument wajib, yaitu path dari file yang akan kita baca. lebih lanjutnya lagi pandas memiliki beberapa argumen optional, kalian bisa mecarinya dengan menggunakan metode help yang telah kalian pelajari sebelumnya 


Contoh pembuatan DataFrame menggunakan Pandas

Contoh berikut ini di eksekusi menggunakan Python IDE, dimana kita akan membuat DataFrame sederhana  yang menunjukkan nama dan usia dari sebuah kelompok.

#Memasukkan library yang digunakan
import pandas as pd

#Membuat dataframe dengan nama 'df'
df = pd.DataFrame({'Nama':['Gubuk Pintar','Sinta','Rima','Doni','Jaka'], 'Usia (tahun)':[5,27,25,18,21],'Jenis Kelamin':['Pria','Wanita','Wanita','Pria','Pria']})

#Menampilkan dataframe 'df'
df

Fungsi import yang digunakan bertujuan untuk mengaktifkan library yang ingin kita pakai, dalam hal ini adalah Pandas yang kita definisikan sebagai 'pd'.

Langkah selanjutnya pada contoh diatas adalah kita membuat sebuah DataFrame dengan nama variabel 'df' yang indeksnya berupa 'Nama', 'Usia', dan 'Jenis Kelamin' beserta nilainya. Kemudian kita menampilkan DataFrame tersebut dengan mengeksekusi kode berupa nama variabelnya.

Output :

Hasil dari eksekusi kode diatas ditampilkan pada gambar dibawah ini:

Cukup sekian blog ini, semoa bermanfaat.

Blogg ini saya buat untuk memenuhi tugas data Scraping, mohon maaf apabila ada kesalan dalam penjelasan terimakasih.

Komentar

Postingan populer dari blog ini

Scrape Data Shopee Menggunakan Python

Program Kasir Sederhana Menggunakan PYTHON

Scrape Data Toko di Tokopedia