Regresi linier

Modul ini memperkenalkan konsep regresi linear.

Regresi linear adalah teknik statistik yang digunakan untuk menemukan hubungan antarvariabel. Dalam konteks ML, regresi linear menemukan hubungan antara fitur dan label.

Misalnya, kita ingin memprediksi efisiensi bahan bakar mobil dalam mil per galon berdasarkan seberapa berat mobil tersebut, dan kita memiliki set data berikut:

Pound dalam ribuan (fitur) Mil per galon (label)
3,5 18
3,69 15
3,44 18
3,43 16
4,34 15
4,42 14
2,37 24

Jika kita memetakan titik-titik ini, kita akan mendapatkan grafik berikut:

Gambar 1. Titik data yang menunjukkan tren menurun dari kiri ke kanan.

Gambar 1. Berat mobil (dalam pound) versus rating mil per galon. Saat mobil menjadi lebih berat, rating mil per galonnya umumnya menurun.

Kita dapat membuat model sendiri dengan menggambar garis kesesuaian terbaik melalui titik-titik:

Gambar 2. Titik data dengan garis kesesuaian terbaik yang ditarik melalui titik data tersebut yang merepresentasikan model.

Gambar 2. Garis kesesuaian terbaik yang ditarik melalui data dari gambar sebelumnya.

Persamaan regresi linear

Dalam istilah aljabar, model akan ditentukan sebagai $ y = mx + b $, dengan

  • $ y $ adalah mil per galon—nilai yang ingin kita prediksi.
  • $ m $ adalah kemiringan garis.
  • $ x $ adalah pound—nilai input kita.
  • $ b $ adalah titik potong sumbu y.

Dalam ML, kita menulis persamaan untuk model regresi linear sebagai berikut:

$$ y' = b + w_1x_1 $$

dalam hal ini:

  • $ y' $ adalah label yang diprediksi—output.
  • $ b $ adalah bias model. Bias adalah konsep yang sama dengan titik potong sumbu y dalam persamaan aljabar untuk garis. Dalam ML, bias terkadang disebut sebagai $ w_0 $. Bias adalah parameter model dan dihitung selama pelatihan.
  • $ w_1 $ adalah bobot fitur. Bobot adalah konsep yang sama dengan kemiringan $ m $ dalam persamaan aljabar untuk garis. Bobot adalah parameter model dan dihitung selama pelatihan.
  • $ x_1 $ adalah fitur—input.

Selama pelatihan, model menghitung bobot dan bias yang menghasilkan model terbaik.

Gambar 3. Persamaan y' = b + w1x1, dengan setiap komponen dianotasi dengan tujuannya.

Gambar 3. Representasi matematika dari model linear.

Dalam contoh ini, kita akan menghitung bobot dan bias dari garis yang kita tarik. Biasnya adalah 34 (tempat garis memotong sumbu y), dan bobotnya adalah –4,6 (kemiringan garis). Model akan ditentukan sebagai $ y' = 34 + (-4.6)(x_1) $, dan kita dapat menggunakannya untuk membuat prediksi. Misalnya, dengan menggunakan model ini, mobil seberat 4.000 pound akan memiliki efisiensi bahan bakar yang diprediksi sebesar 15,6 mil per galon.

Gambar 4. Grafik yang sama dengan Gambar 2, dengan titik (4, 15,6) yang ditandai.

Gambar 4. Dengan menggunakan model ini, mobil seberat 1.814 kg memiliki prediksi efisiensi bahan bakar 15,6 mil per galon.

Model dengan beberapa fitur

Meskipun contoh di bagian ini hanya menggunakan satu fitur—berat mobil—model yang lebih canggih mungkin mengandalkan beberapa fitur, yang masing-masing memiliki bobot terpisah ($ w_1 $, $ w_2 $, dll.). Misalnya, model yang mengandalkan lima fitur akan ditulis sebagai berikut:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

Misalnya, model yang memprediksi jarak tempuh bahan bakar dapat menggunakan fitur tambahan seperti berikut:

  • Kapasitas mesin
  • Akselerasi
  • Jumlah silinder
  • Daya kuda

Model ini akan ditulis sebagai berikut:

Gambar 5. Persamaan regresi linear dengan lima fitur.

Gambar 5. Model dengan lima fitur untuk memprediksi rating mil per galon mobil.

Dengan membuat grafik beberapa fitur tambahan ini, kita dapat melihat bahwa fitur tersebut juga memiliki hubungan linier dengan label, mil per galon:

Gambar 6. Perpindahan dalam sentimeter kubik yang diplot terhadap mil per galon yang menunjukkan hubungan linear negatif.

Gambar 6. Kapasitas mesin mobil dalam sentimeter kubik dan rating mil per galonnya. Seiring dengan bertambah besarnya mesin mobil, rating mil per galonnya umumnya menurun.

Gambar 7. Percepatan dari nol hingga enam puluh dalam hitungan detik yang diplot terhadap mil per galon yang menunjukkan hubungan linear positif.

Gambar 7. Akselerasi mobil dan rating mil per galonnya. Seiring dengan makin lamanya akselerasi mobil, rating mil per galon umumnya meningkat.

Latihan: Periksa pemahaman Anda

Bagian mana dari persamaan regresi linear yang diperbarui selama pelatihan?
Bias dan bobot
Selama pelatihan, model memperbarui bias dan bobot.
Prediksi
Prediksi tidak diperbarui selama pelatihan.
Nilai fitur
Nilai fitur adalah bagian dari set data, sehingga tidak diperbarui selama pelatihan.