Modul ini memperkenalkan konsep regresi linear.
Regresi linear adalah teknik statistik yang digunakan untuk menemukan hubungan antarvariabel. Dalam konteks ML, regresi linear menemukan hubungan antara fitur dan label.
Misalnya, kita ingin memprediksi efisiensi bahan bakar mobil dalam mil per galon berdasarkan seberapa berat mobil tersebut, dan kita memiliki set data berikut:
Pound dalam ribuan (fitur) | Mil per galon (label) |
---|---|
3,5 | 18 |
3,69 | 15 |
3,44 | 18 |
3,43 | 16 |
4,34 | 15 |
4,42 | 14 |
2,37 | 24 |
Jika kita memetakan titik-titik ini, kita akan mendapatkan grafik berikut:
Gambar 1. Berat mobil (dalam pound) versus rating mil per galon. Saat mobil menjadi lebih berat, rating mil per galonnya umumnya menurun.
Kita dapat membuat model sendiri dengan menggambar garis kesesuaian terbaik melalui titik-titik:
Gambar 2. Garis kesesuaian terbaik yang ditarik melalui data dari gambar sebelumnya.
Persamaan regresi linear
Dalam istilah aljabar, model akan ditentukan sebagai $ y = mx + b $, dengan
- $ y $ adalah mil per galon—nilai yang ingin kita prediksi.
- $ m $ adalah kemiringan garis.
- $ x $ adalah pound—nilai input kita.
- $ b $ adalah titik potong sumbu y.
Dalam ML, kita menulis persamaan untuk model regresi linear sebagai berikut:
dalam hal ini:
- $ y' $ adalah label yang diprediksi—output.
- $ b $ adalah bias model. Bias adalah konsep yang sama dengan titik potong sumbu y dalam persamaan aljabar untuk garis. Dalam ML, bias terkadang disebut sebagai $ w_0 $. Bias adalah parameter model dan dihitung selama pelatihan.
- $ w_1 $ adalah bobot fitur. Bobot adalah konsep yang sama dengan kemiringan $ m $ dalam persamaan aljabar untuk garis. Bobot adalah parameter model dan dihitung selama pelatihan.
- $ x_1 $ adalah fitur—input.
Selama pelatihan, model menghitung bobot dan bias yang menghasilkan model terbaik.
Gambar 3. Representasi matematika dari model linear.
Dalam contoh ini, kita akan menghitung bobot dan bias dari garis yang kita tarik. Biasnya adalah 34 (tempat garis memotong sumbu y), dan bobotnya adalah –4,6 (kemiringan garis). Model akan ditentukan sebagai $ y' = 34 + (-4.6)(x_1) $, dan kita dapat menggunakannya untuk membuat prediksi. Misalnya, dengan menggunakan model ini, mobil seberat 4.000 pound akan memiliki efisiensi bahan bakar yang diprediksi sebesar 15,6 mil per galon.
Gambar 4. Dengan menggunakan model ini, mobil seberat 1.814 kg memiliki prediksi efisiensi bahan bakar 15,6 mil per galon.
Model dengan beberapa fitur
Meskipun contoh di bagian ini hanya menggunakan satu fitur—berat mobil—model yang lebih canggih mungkin mengandalkan beberapa fitur, yang masing-masing memiliki bobot terpisah ($ w_1 $, $ w_2 $, dll.). Misalnya, model yang mengandalkan lima fitur akan ditulis sebagai berikut:
$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $
Misalnya, model yang memprediksi jarak tempuh bahan bakar dapat menggunakan fitur tambahan seperti berikut:
- Kapasitas mesin
- Akselerasi
- Jumlah silinder
- Daya kuda
Model ini akan ditulis sebagai berikut:
Gambar 5. Model dengan lima fitur untuk memprediksi rating mil per galon mobil.
Dengan membuat grafik beberapa fitur tambahan ini, kita dapat melihat bahwa fitur tersebut juga memiliki hubungan linier dengan label, mil per galon:
Gambar 6. Kapasitas mesin mobil dalam sentimeter kubik dan rating mil per galonnya. Seiring dengan bertambah besarnya mesin mobil, rating mil per galonnya umumnya menurun.
Gambar 7. Akselerasi mobil dan rating mil per galonnya. Seiring dengan makin lamanya akselerasi mobil, rating mil per galon umumnya meningkat.