Model complexity graph atau grafik kompleksitas model adalah salah satu cara yang dapat kita manfaatkan untuk menghindari masalah underfitting dan overfitting dengan memilih model yang terbaik di antara model lainnya. Misalnya saja kita memiliki banyak dataset yang sangat kompleks dan kita memutuskan untuk membuat model polynomial regression. Kita ingin melihat berapa orde yang paling cocok antara 0 dan 10 (inklusif) pada model yang akan kita buat. Seperti yang telah kita bahas pada postingan sebelumnya, cara kita memutuskan model mana yang akan digunakan adalah dengan memilih model yang memiliki error paling kecil.
Lihatlah grafik di bawah ini. Sumbu horizontal merepresentasikan orde dari polynomial dan sumbu vertikal merepresentasikan nilai error. Simbol diamond merepresentasikan error pelatihan, dan simbol lingkaran merepresentasikan error validasi. Ini adalah contoh dari model complexity graph.
Salah satu keuntungan menggunakan model complexity graph adalah tidak peduli seberapa besar dataset kita atau seberapa banyak model yang kita coba, kita akan selalu melihat dua jenis kurva; satu yang selalu menurun (error pelatihan) dan satu lagi yang turun kemudian kembali naik ke atas (error validasi). Tentu saja pada dataset yang besar dan kompleks, kurva dapat berosilasi beberapa kali. Grafik kompleksitas ini akan menjadi tools yang sangat berguna bagi data scientist untuk menentukan seberapa kompleks model yang akan dibuat sehingga dapat menghindari masalah underfitting dan overfitting.
Terdapat teknik lain yang dapat digunakan untuk menghindari overfitting tanpa memerlukan set pengujian, yaitu Regularization. Pada pembahasan sebelumnya, kita menguji beberapa model, kemudian memilih salah satu yang paling seimbang kinerja dan kompleksitasnya. Ketika kita menggunakan regularization, kita tidak perlu melatih beberapa model lagi. Kita hanya melatihnya sekali, namun selama pelatihan kita mencoba untuk tidak hanya meningkatkan kinerja model, tetapi juga mengurangi kompleksitasnya. Kunci untuk melakukan ini adalah mengukur kinerja dan kompleksitas pada saat yang bersamaan.
Kita akan belajar regularization pada postingan berikutnya!
See you~