Tugas 2 Praktikum Sains Data: Model Klasifikasi
Kembali ke Sains Data
Petunjuk Umum
Kerjakan secara individu.
Kerjakan tugas ini menggunakan bahasa pemrograman Python dengan file format berupa interactive Python notebook (yaitu file berbentuk .ipynb BUKAN .py), yang bisa dibuat misalnya menggunakan Jupyter Notebook atau Google Colaboratory.
Harap sertakan penjelasan untuk setiap proses secara singkat di samping potongan kode (bisa dengan teks / text box maupun dengan comment, ‘#’).
Format nama file untuk Tugas 2 adalah:
Nama Lengkap_NPM_Kelas SIAK_Tugas2PrakSaindat.ipynb
Contoh penamaan yang benar:
William Rowan Hamilton_2201234567_Kelas H_Tugas2PrakSaindat.ipynb
Untuk mengumpulkan lebih dari satu file, gunakan
.zipdengan format nama yang sama (dan file.ipynbyang di dalamnya juga masih menggunakan format nama yang sama).Apabila ada yang ingin direvisi setelah pengumpulan, lakukan pengumpulan ulang di Google Forms yang sama, tambahkan keterangan bahwa ada revisi, dan tambahkan kata “revisi” pada bagian akhir nama file, contohnya menjadi
William Rowan Hamilton_2201234567_Kelas H_Tugas2PrakSaindat_revisi.ipynb (atau .zip)
William Rowan Hamilton_2201234567_Kelas H_Tugas2PrakSaindat_revisi2.ipynb
William Rowan Hamilton_2201234567_Kelas H_Tugas2PrakSaindat_revisi3.ipynb
(tentunya gunakan
.zipkalau ada lebih dari satu file yang ingin dikumpulkan)(Revisi boleh dilakukan berkali-kali selama masa pengerjaan.)
Pengumpulan tugas dilakukan ke Google Forms berikut ini, sesuai dengan kelas Anda di SIAK NG (link akan selalu sama untuk semua tugas praktikum Sains Data):
Dengan durasi pengerjaan sekitar 1 (satu) bulan, tenggat waktu (deadline) pengumpulan Tugas 1 ini (termasuk revisi) adalah:
Minggu, 19 April 2026, pukul 23.59 WIB.
Mohon manfaatkan waktu Anda dengan baik (seperti mencicil pengerjaan, bahkan sudah selesai dari jauh-jauh hari) agar mengumpulkan tugas sebelum deadline. Keterlambatan pengumpulan bisa dikenakan pengurangan nilai atau bahkan dianggap tidak mengumpulkan, tergantung kesepakatan dari dosen. Meskipun demikian, lebih baik terlambat mengumpulkan daripada tidak mengumpulkan sama sekali.
Gunakan module (python package) yang telah dipelajari di praktikum atau kelas. Anda diperbolehkan untuk menggunakan module (python package) lain dengan catatan bahwa Anda harus menuliskan penjelasan singkat mengenai module tersebut.
Untuk setiap proses sains data (pembersihan data, transformasi data, EDA, dan pemodelan) yang dilakukan, Anda diperlukan untuk menuliskan justifikasi-nya. Justifikasi yang dimaksud dapat berupa penjelasan singkat mengenai proses yang dilakukan, dan penjelasan mengenai alasan mengapa anda melakukan proses tersebut.
Sesuai standar Universitas Indonesia, plagiarisme dilarang keras dan bisa menyebabkan nilai tugas praktikum menjadi nol untuk semua pihak yang terlibat, tanpa peringatan apapun. Namun, Anda boleh memanfaatkan kode apapun yang ada di modul praktikum.
Narahubung:
- Tugas 2 Saindat: Dimas (Line : dimas.p.u)
Soal
Diberikan dataset heart_disease_uci.csv yang berisi informasi klinis pasien yang digunakanterkait keberadaan penyakit jantung. Dataset dapat di-download pada tautan berikut (gunakan Ctrl + S jika tidak otomatis tersimpan):
Dataset ini bertujuan untuk mengidentifikasi apakah seseorang terkena penyakit jantung atau tidak, yang direpresentasikan oleh fitur target num. Perhatikan, fitur ini memiliki dua kelas, yaitu “0” dan “1”, sehingga metode machine learning yang cocok untuk prediksi adalah metode klasifikasi biner.
Jika ingin melihat deskripsi lebih rinci mengenai tiap fitur pada dataset, silahkan buka file .txt berikut:
Metode-metode klasifikasi yang sejauh ini sudah kita pelajari selama praktikum adalah
regresi logistik,
decision tree, dan
SVM.
Menggunakan ketiga metode di atas, lakukan end-to-end machine learning, atau lebih tepatnya end-to-end classification, yang meliputi:
Langkah preprocessing yang sekiranya diperlukan: bisa meliputi transformasi data, seleksi fitur, imputasi, encoding, standarisasi, normalisasi, dsb. Berikan juga keterangan/penjelasan, mengapa Anda melakukan langkah preprocessing tersebut.
EDA: cobalah menduga, kira-kira fitur/kolom/variabel apa saja yang memiliki hubungan yang erat atau menarik? Lakukan eksplorasi dengan membuat visualisasi dari fitur-fitur tersebut. Anda bebas membuat plot apa saja yang sekiranya cocok.
Lalu, tuliskan penjelasan atau interpretasi Anda untuk tiap hasil visualisasi (misalnya dugaan Anda benar/salah, atau Anda memperoleh informasi/insight baru dari visualisasi tersebut).
Lakukan train-test-split (rasio dibebaskan, misal 80:20). Jangan lupa gunakan suatu
random_state.Modelling: Buatlah minimal satu model untuk setiap metode klasifikasi yang sudah diajarkan, yakni:
regresi logistik (beri alasan mengenai fitur yang dipilih sebagai variabel prediktor),
decision tree (Tampilkan juga decision tree yang terbentuk), dan
SVM (hyperparameter/Fungsi kernel yang digunakan dibebaskan).
Anda diizinkan untuk menambahkan model menggunakan metode lain yang tidak diajarkan di praktikum (seperti KNN, random forest, dsb) selama Anda menjelaskan secara singkat metode yang digunakan tersebut. Namun anda wajib menggunakan ketiga metode yang disebutkan sebelumnya.
Evaluasi model klasifikasi: untuk model-model klasifikasi yang telah Anda buat, tampilkan/hitunglah metrik evaluasi untuk klasifikasi, misalnya menampilkan confusion matrix atau menghitung Jaccard score kemudian jelaskan interpretasinya. Di antara model-model tersebut, dengan hyperparameter yang Anda pilih, model mana yang terbaik?