Numerical Data adalah semua jenis data yang menggunakan angka seperti 6, 4.35, atau -342. Contoh data numerik adalah harga, ukuran, atau bobot.
Categorical Data adalah semua jenis data yang menggunakan kategori, seperti jantan/betina atau kucing/anjing/burung.
Model Regresi adalah jenis model yang memprediksi data numerik. Output dari model regresi adalah angka. Misalnya berat hewan atau harga rumah.
Model Klasifikasi adalah model yang memprediksi data kategoris. Output dari model klasifikasi adalah kategori atau keadaan. Misalnya jenis hewan (anjing atau kucing).
Berikut adalah contoh model supervised learning. Model 1 adalah regresi, dan model 2 adalah klasifikasi.
Perhatikan perbedaan antara model 1 dan 2.
Model harga perumahan adalah model yang dapat mengembalikan angka dari banyak kemungkinan, seperti 1 Milyar, 2.5 Milyar atau 3.125 Milyar. Dengan demikian, ini adalah model regresi.
Model deteksi email spam, hanya dapat mengembalikan kategori spam atau non-spam. Dengan demikian, ini adalah model klasifikasi.
Selanjutnya, kita akan membahas lebih dalam tentang regresi dan klasifikasi.
Model Regresi Memprediksi Angka
Seperti yang telah kita bahas sebelumnya, model regresi adalah model di mana label yang ingin kita prediksi adalah angka. Jumlah angka ini diprediksi berdasarkan fitur. Dalam contoh perumahan, fitur-fiturnya bisa berupa apa saja yang menggambarkan sebuah rumah, seperti ukuran, jumlah kamar, jarak ke sekolah terdekat, atau tingkat kejahatan di lingkungan tersebut.
Model regresi juga dapat diimplementasikan pada beberapa bidang, antara lain:
- Pasar Saham: Memprediksi harga saham tertentu berdasarkan harga saham lainnya dan sinyal pasar lainnya.
- Kedokteran: Memprediksi waktu pemulihan yang diharapkan berdasarkan gejala dan riwayat medis pasien.
- Perdagangan: Memprediksi jumlah uang yang akan dibelanjakan pelanggan berdasarkan demografi klien dan perilaku pembelian sebelumnya.
- Rekomendasi Video: Memprediksi perkiraan jumlah waktu pengguna akan menonton video berdasarkan demografi pengguna dan video lain yang telah mereka tonton.
Model klasifikasi adalah model di mana label yang ingin kita prediksi adalah sekumpulan kategori yang terbatas. Model klasifikasi yang paling umum memprediksi "ya" atau "tidak," tetapi banyak model lain menggunakan serangkaian kategori yang lebih besar.
Dalam contoh deteksi email spam, model memprediksi status email (yaitu, spam atau non-spam) dari fitur email. Dalam hal ini, fitur email dapat berupa kata-kata di dalamnya, jumlah kesalahan ejaan, pengirim, atau apa pun yang menggambarkan email.
Implementasi lain dari klasifikasi antara lain:
- Analisis Sentimen: Memprediksi apakah ulasan film positif atau negatif berdasarkan kata-kata dalam ulasan.
- Web Traffic: Memprediksi apakah pengguna akan mengklik tautan atau tidak berdasarkan demografi pengguna dan interaksi sebelumnya dengan situs terkait.
- Media Sosial: Memprediksi apakah pengguna akan berteman atau berinteraksi dengan pengguna lain berdasarkan demografi, riwayat, dan teman yang sama.
- Rekomendasi Video: Memprediksi apakah pengguna akan menonton video berdasarkan demografi pengguna dan video lain yang mereka tonton.
Metode yang dapat digunakan pada kasus klasifikasi antara lain; Perceptrons, Logistic Classifier, Naive Bayes, Decision Tree, Neural Network, Support Vector Machine (SVM), dan berbagai Ensemble Method.
Semoga kita panjang umur untuk mengurai satu per satu metode yang telah disebutkan di atas.
See you~