Ad Code

Ticker

6/recent/ticker-posts

Mendiagnosis Overfitting Menggunakan Model Complexity Graph

Model complexity graph atau grafik kompleksitas model adalah salah satu cara yang dapat kita manfaatkan untuk menghindari masalah underfitting dan overfitting dengan memilih model yang terbaik di antara model lainnya. Misalnya saja kita memiliki banyak dataset yang sangat kompleks dan kita memutuskan untuk membuat model polynomial regression. Kita ingin melihat berapa orde yang paling cocok antara 0 dan 10 (inklusif) pada model yang akan kita buat. Seperti yang telah kita bahas pada postingan sebelumnya, cara  kita memutuskan model mana yang akan digunakan adalah dengan memilih model yang memiliki error paling kecil.

Lihatlah grafik di bawah ini. Sumbu horizontal merepresentasikan orde dari polynomial dan sumbu vertikal merepresentasikan nilai error. Simbol diamond merepresentasikan error pelatihan, dan simbol lingkaran merepresentasikan error validasi. Ini adalah contoh dari model complexity graph.

Perhatikan pada grafik di atas, nilai error terendah pada saat pelatihan dan validasi terjadi pada orde 4. Ini berarti model yang paling pas (di antara model lain yang kita pertimbangkan) adalah polynomial regression orde 4. Pada sisi kiri grafik, terlihat bahwa semakin kecil orde poynomial, nilai error pada pelatihan dan validasi cenderung besar. Namun ketika kita melihat pada bagian kanan grafik, terlihat bahwa error pelatihan semakin kecil, namun error validasi semakin besar. Hal ini menyiratkan bahwa model overfitting. Momentum terbaik terjadi di sekitar orde 4. Dan itu adalah hyperparameter yang akan kita pilih untuk model kita.

Salah satu keuntungan menggunakan model complexity graph adalah tidak peduli seberapa besar dataset kita atau seberapa banyak model yang kita coba, kita akan selalu melihat dua jenis kurva; satu yang selalu menurun (error pelatihan) dan satu lagi yang turun kemudian kembali naik ke atas (error validasi). Tentu saja pada dataset yang besar dan kompleks, kurva dapat berosilasi beberapa kali. Grafik kompleksitas ini akan menjadi tools yang sangat berguna bagi data scientist untuk menentukan seberapa kompleks model yang akan dibuat sehingga dapat menghindari masalah underfitting dan overfitting.

Terdapat teknik lain yang dapat digunakan untuk menghindari overfitting tanpa memerlukan set pengujian, yaitu Regularization. Pada pembahasan sebelumnya, kita menguji beberapa model, kemudian memilih salah satu yang paling seimbang kinerja dan kompleksitasnya. Ketika kita menggunakan regularization, kita tidak perlu melatih beberapa model lagi. Kita hanya melatihnya sekali, namun selama pelatihan kita mencoba untuk tidak hanya meningkatkan kinerja model, tetapi juga mengurangi kompleksitasnya. Kunci untuk melakukan ini adalah mengukur kinerja dan kompleksitas pada saat yang bersamaan.

Kita akan belajar regularization pada postingan berikutnya!

See you~

Referensi