Pertemuan 3 : Simple Data Visualization (matplotlib)

Data visualization in python using matplotlib (pyplot)

April 23, 2024

Matplotlib (Pyplot)

Matplotlib adalah library yang digunakan untuk visualisasi data. Hasil visualisasi data matplotllib menyerupai hasil visualisasi pada bahasa pemrograman matlab. Library ini bukanlah cara yang paling mudah untuk menghasilkan visualisasi data, tetapi visualisasi yang dihasilkan fleksibel dan dapat digunakan untuk banyak sekali kasus.

Download dataset

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Import Dataset
df = pd.read_csv('')

# Cek 5 observasi pertama
age sex bmi children smoker region charges
0 19 female 27.900 0 yes southwest 16884.92400
1 18 male 33.770 1 no southeast 1725.55230
2 28 male 33.000 3 no southeast 4449.46200
3 33 male 22.705 0 no northwest 21984.47061
4 32 male 28.880 0 no northwest 3866.85520
# melihat informasi mengenai tiap variabel
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1338 entries, 0 to 1337
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       1338 non-null   int64  
 1   sex       1338 non-null   object 
 2   bmi       1338 non-null   float64
 3   children  1338 non-null   int64  
 4   smoker    1338 non-null   object 
 5   region    1338 non-null   object 
 6   charges   1338 non-null   float64
dtypes: float64(2), int64(2), object(3)
memory usage: 73.3+ KB
# statistik deskritif semua variabel numerik
age bmi children charges
count 1338.000000 1338.000000 1338.000000 1338.000000
mean 39.207025 30.663397 1.094918 13270.422265
std 14.049960 6.098187 1.205493 12110.011237
min 18.000000 15.960000 0.000000 1121.873900
25% 27.000000 26.296250 0.000000 4740.287150
50% 39.000000 30.400000 1.000000 9382.033000
75% 51.000000 34.693750 2.000000 16639.912515
max 64.000000 53.130000 5.000000 63770.428010

Box Plot

# Box Plot variabel `age`
plt.boxplot(x='age', data=df)

# Menambahkan Judul Plot
plt.title("Box Plot")
# Menambahkan label sumbu X dan Y

# Menunjukkan plot

# Box Plot variabel `bmi`
plt.boxplot(x='bmi', data=df)

# Menambahkan Judul Plot
plt.title("Box Plot")
# Menambahkan label sumbu X dan Y

# Menunjukkan plot


Seperti halnya penggunaan syntax ? pada bahasa pemrograman R, kita dapat mengakses dokumentasi suatu fungsi dalam suatu modul pada python dengan menggunakan function help()

# Melihat dokumentasi mengenai function plt.boxplot()
# Histogram variabel `bmi`
plt.hist(x='bmi', data=df)

# Menambahkan Judul Plot
# Menambahkan label sumbu X dan Y

# Menunjukkan plot

Bar Chart

# Hitung banyaknya responden dari masing-masing gender
male      676
female    662
Name: count, dtype: int64
# Bar chart jumlah tiap jenis kelamin

# Menambahkan Judul Plot
plt.title("Bar Chart")
# Menambahkan label sumbu X dan Y

# Menunjukkan plot

Horizontal Bar Chart

# Horizontal Bar chart jumlah tiap jenis kelamin

# Menambahkan Judul Plot
plt.title("Bar Chart")
# Menambahkan label sumbu X dan Y

# Menunjukkan plot

Pie Chart

# Pie chart persentase sebaran region seluruh responden
df['region'].value_counts().plot(kind='pie', autopct='%1.1f%%')

# Menambahkan Judul Plot
plt.title("Pie Chart")

# Menunjukkan plot

Scatter Plot

# Scatter plot variabel `age` dan `charges`
df.plot(kind='scatter', x='age', y='charges')

# Menambahkan Judul Plot
plt.title("Scatter Plot `Age` vs `Charges`")
# Menambahkan label sumbu X dan Y

# Menunjukkan plot

Untuk plot lainnya, silakan telusuri dokumentasi dari library matplotlib yang dapat diakses pada link berikut : Dokumentasi matplotlib.pyplot


Figure and Axes

Pembuatan suatu plot menggunakan library matplotlib akan menghasilkan suatu figure yang memiliki beberapa komponen di dalamnya.

Berikut cara membuat suatu figure menggunakan matplotlib

fig = plt.figure()  # an empty figure with no Axes
<Figure size 672x480 with 0 Axes>

Figure kosong tidak dapat divisualisasikan. Untuk membuat suatu figure yang memiliki axes, gunakan function plt.subplots()

fig, ax = plt.subplots()  # a figure with a single Axes

Bagaimana jika kita ingin membuat gabungan dari beberapa Axes dalam 1 figure?

function subplots menerima parameter jumlah baris dan jumlah kolom untuk membentuk suatu grid yang terdiri atas 1 atau lebih axes

fig, axs = plt.subplots(2, 2)  # a figure with a 2x2 grid of Axes

Selain dengan function subplots, ada juga function subplot_mosaic yang akan menghasilkan axes dengan ukuran yang lebih bervariasi.

# a figure with one axes on the left, and two on the right:
fig, axs = plt.subplot_mosaic([['left', 'right_top'],
                               ['left', 'right_bottom']])


Untuk menambahkan plot pada tiap axis, gunakan function-function plot pada axis dengan index yang bersesuaian.

fig, axs = plt.subplots(2, 2, layout="constrained")


axs[0,0].set_title('Variabel `Age`')


axs[0,1].set_title('Variabel `bmi`')


axs[1,0].set_title('Variabel `children`')


axs[1,1].set_title('Variabel `charges`')

fig.suptitle('Histogram Variabel Numerik')

Lebih lanjut, silakan baca dokumentasi dari plt.subplot pada link berikut : Dokumentasi plt.subplots