Ad Code

Ticker

6/recent/ticker-posts

Supervised Learning: Cabang Machine Learning yang Bekerja dengan Data Berlabel

Bedasarkan cara beroperasinya, model machine learning secara garis besar dibedakan menjadi 3 jenis, yaitu: Supervised Learning, Unsupervised Learning, dan Reinforcement Learning. Dalam postingan kali ini, kita akan membahas lebih mendalam tentang apa itu Supervised Learning atau bisa juga disebut sebagai Pembelajaran yang Diawasi.

Supervised Learning adalah jenis machine learning yang menggunakan data berlabel. Singkatnya, tujuan dari model supervised learning adalah untuk memprediksi atau menebak label. Implementasi dari supervised learning antara lain; pengenalan gambar, berbagai macam bentuk pemrosesan teks, dan sistem rekomendasi.

Sebagai contoh, kita memiliki himpunan data berlabel seperti berikut. Labelnya adalah "Anjing" dan "Kucing". Untuk masing-masing hewan di bawah ini, secara satuan, kita sebut sebagai titik data.
Gambar 1 Data berlabel adalah data yang dilengkapi dengan tag atau label. Label itu bisa berupa jenis atau angka.


Untuk himpunan data ini, model machine learning akan menggunakan data sebelumnya untuk memprediksi label titik data baru. Dengan demikian, jika kita membawa gambar baru tanpa label, model akan menebak apakah gambar itu anjing atau kucing.

Gambar 2 Model supervised learning memprediksi label titik data baru. Dalam hal ini, titik data sesuai dengan anjing, dan algoritma supervised learning dilatih untuk memprediksi bahwa titik data ini sesuai dengan anjing.


Sekarang, perhatikan gambar di bawah ini. Setiap titik data diberi label dengan berat hewan dalam pound.
Gambar 3 Data berlabel dengan label angka, yaitu berat hewan peliharaan (dalam pound)


Dalam himpunan data ini, labelnya adalah angka. Sedangkan pada Gambar 1, setiap titik data diberi label dengan jenis hewan (anjing atau kucing). Kedua jenis data ini yang akan sering kita temui dalam model supervised learning. Kita dapat menyebutnya sebagai numerical data dan categorical data.

Numerical Data adalah semua jenis data yang menggunakan angka seperti 6, 4.35, atau -342. Contoh data numerik adalah harga, ukuran, atau bobot.


Categorical Data adalah semua jenis data yang menggunakan kategori, seperti jantan/betina atau kucing/anjing/burung.

 

Perbedaan jenis data tersebut, akhirnya melahirkan 2 jenis model supervised learning, yaitu Regresi dan Klasifikasi.

Model Regresi adalah jenis model yang memprediksi data numerik. Output dari model regresi adalah angka. Misalnya berat hewan atau harga rumah.


Model Klasifikasi adalah model yang memprediksi data kategoris. Output dari model klasifikasi adalah kategori atau keadaan. Misalnya jenis hewan (anjing atau kucing).


Berikut adalah contoh model supervised learning. Model 1 adalah regresi, dan model 2 adalah klasifikasi.

Model 1: model harga perumahan (regresi)
Dalam model ini, setiap titik data adalah rumah. Label setiap rumah adalah harganya. Tujuan kita adalah ketika ada rumah baru (titik data) muncul di pasar, kita ingin memprediksi labelnya, yaitu harganya.

Model 2: model deteksi email spam (klasifikasi)
Dalam model ini, setiap titik data adalah email. Label setiap email adalah spam atau non-spam. Tujuan kita adalah ketika ada email baru (titik data) masuk, kita ingin memprediksi labelnya, apakah itu spam atau non-spam.

Perhatikan perbedaan antara model 1 dan 2.

Model harga perumahan adalah model yang dapat mengembalikan angka dari banyak kemungkinan, seperti 1 Milyar, 2.5 Milyar atau 3.125 Milyar. Dengan demikian, ini adalah model regresi.

Model deteksi email spam, hanya dapat mengembalikan kategori spam atau non-spam. Dengan demikian, ini adalah model klasifikasi

Selanjutnya, kita akan membahas lebih dalam tentang regresi dan klasifikasi. 

Model Regresi Memprediksi Angka

Seperti yang telah kita bahas sebelumnya, model regresi adalah model di mana label yang ingin kita prediksi adalah angka. Jumlah angka ini diprediksi berdasarkan fitur. Dalam contoh perumahan, fitur-fiturnya bisa berupa apa saja yang menggambarkan sebuah rumah, seperti ukuran, jumlah kamar, jarak ke sekolah terdekat, atau tingkat kejahatan di lingkungan tersebut.

Model regresi juga dapat diimplementasikan pada beberapa bidang, antara lain:

  • Pasar Saham: Memprediksi harga saham tertentu berdasarkan harga saham lainnya dan sinyal pasar lainnya.
  • Kedokteran: Memprediksi waktu pemulihan yang diharapkan berdasarkan gejala dan riwayat medis pasien.
  • Perdagangan: Memprediksi jumlah uang yang akan dibelanjakan pelanggan berdasarkan demografi klien dan perilaku pembelian sebelumnya.
  • Rekomendasi Video: Memprediksi perkiraan jumlah waktu pengguna akan menonton video berdasarkan demografi pengguna dan video lain yang telah mereka tonton.
Metode paling umum yang digunakan untuk kasus regresi adalah Regresi Linear. Adapun metode lain yang dapat digunakan adalah Decision Tree Regression, dan beberapa ensemble method seperti Random Forest, AdaBoost, Gradient Boosted Trees, dan XGBoost. Masing-masing akan kita pelajari di lain waktu.

Model Klasifikasi Memprediksi Kategori

Model klasifikasi adalah model di mana label yang ingin kita prediksi adalah sekumpulan kategori yang terbatas. Model klasifikasi yang paling umum memprediksi "ya" atau "tidak," tetapi banyak model lain menggunakan serangkaian kategori yang lebih besar.

Dalam contoh deteksi email spam, model memprediksi status email (yaitu, spam atau non-spam) dari fitur email. Dalam hal ini, fitur email dapat berupa kata-kata di dalamnya, jumlah kesalahan ejaan, pengirim, atau apa pun yang menggambarkan email.

Implementasi lain dari klasifikasi antara lain:

  • Analisis Sentimen: Memprediksi apakah ulasan film positif atau negatif berdasarkan kata-kata dalam ulasan.
  • Web Traffic: Memprediksi apakah pengguna akan mengklik tautan atau tidak berdasarkan demografi pengguna dan interaksi sebelumnya dengan situs terkait.
  • Media Sosial: Memprediksi apakah pengguna akan berteman atau berinteraksi dengan pengguna lain berdasarkan demografi, riwayat, dan teman yang sama.
  • Rekomendasi Video: Memprediksi apakah pengguna akan menonton video berdasarkan demografi pengguna dan video lain yang mereka tonton.

Metode yang dapat digunakan pada kasus klasifikasi antara lain; Perceptrons, Logistic Classifier, Naive Bayes, Decision Tree, Neural Network, Support Vector Machine (SVM), dan berbagai Ensemble Method. 

Semoga kita panjang umur untuk mengurai satu per satu metode yang telah disebutkan di atas.

See you~