लीनियर रिग्रेशन

इस मॉड्यूल में, लीनियर रिग्रेशन के कॉन्सेप्ट के बारे में बताया गया है.

लीनियर रिग्रेशन, सांख्यिकी से जुड़ी एक ऐसी तकनीक है जिसका इस्तेमाल वैरिएबल के बीच संबंध का पता लगाने के लिए किया जाता है. एमएल के संदर्भ में, लीनियर रिग्रेशन विशेषताओं और लेबल के बीच संबंध का पता लगाता है.

उदाहरण के लिए, मान लें कि हमें यह अनुमान लगाना है कि कार के वज़न के आधार पर, वह एक गैलन में कितने मील चलेगी. इसके लिए, हमारे पास यह डेटासेट है:

हज़ारों पाउंड में (फ़ीचर) माइल प्रति गैलन (लेबल)
3.5 18
3.69 15
3.44 18
3.43 16
4.34 15
4.42 14
2.37 24

अगर हम इन पॉइंट को प्लॉट करते हैं, तो हमें यह ग्राफ़ मिलेगा:

इमेज 1. डेटा पॉइंट, बाईं से दाईं ओर नीचे की ओर झुके हुए ट्रेंड को दिखाते हैं.

पहली इमेज. कार का वज़न (पाउंड में) बनाम माइलेज (मील प्रति गैलन) रेटिंग. कार का वज़न बढ़ने पर, आम तौर पर उसकी माइलेज रेटिंग कम हो जाती है.

हम इन पॉइंट के बीच सबसे सही लाइन खींचकर, अपना मॉडल बना सकते हैं:

इमेज 2. डेटा पॉइंट के बीच से गुज़रने वाली सबसे सही फ़िट लाइन, मॉडल को दिखाती है.

दूसरी इमेज. पिछली इमेज में दिए गए डेटा के हिसाब से सबसे सही लाइन.

लीनियर रिग्रेशन इक्वेशन

बीजगणित के हिसाब से, मॉडल को $ y = mx + b $ के तौर पर तय किया जाएगा. इसमें

  • $ y $ माइल्स प्रति गैलन है. यह वह वैल्यू है जिसका हमें अनुमान लगाना है.
  • $ m $ लाइन का स्लोप है.
  • $ x $ पाउंड है, जो हमारी इनपुट वैल्यू है.
  • $ b $ y-इंटरसेप्ट है.

एमएल में, लीनियर रिग्रेशन मॉडल के लिए समीकरण इस तरह लिखा जाता है:

$$ y' = b + w_1x_1 $$

कहां:

  • $ y' $ अनुमानित लेबल है, जो आउटपुट है.
  • $ b $ मॉडल का बायस है. बायस, बीजगणितीय समीकरण में y-इंटरसेप्ट के जैसा ही होता है. मशीन लर्निंग में, बायस को कभी-कभी $ w_0 $ कहा जाता है. बायस, मॉडल का पैरामीटर होता है और इसे ट्रेनिंग के दौरान कैलकुलेट किया जाता है.
  • $ w_1 $, सुविधा का वज़न है. वेट, लाइन के लिए बीजगणितीय समीकरण में स्लोप $ m $ के कॉन्सेप्ट जैसा ही होता है. वज़न, मॉडल का एक पैरामीटर होता है. इसका हिसाब ट्रेनिंग के दौरान लगाया जाता है.
  • $ x_1 $ एक विशेषता है, जो इनपुट है.

ट्रेनिंग के दौरान मॉडल, सबसे अच्छे मॉडल को बनाने के लिए वज़न और बायस का हिसाब लगाता है.

इमेज 3. इस इमेज में, y' = b + w1x1 समीकरण दिखाया गया है. इसमें हर कॉम्पोनेंट के बारे में जानकारी दी गई है.

तीसरी इमेज. लीनियर मॉडल का गणितीय प्रतिनिधित्व.

हमारे उदाहरण में, हमने जो लाइन बनाई है उससे वज़न और बायस का हिसाब लगाया जाएगा. इसमें बायस 34 है (जहां लाइन, y-ऐक्सिस को काटती है) और वेट –4.6 है (लाइन का स्लोप). मॉडल को $ y' = 34 + (-4.6)(x_1) $ के तौर पर तय किया जाएगा. साथ ही, हम इसका इस्तेमाल अनुमान लगाने के लिए कर सकते हैं. उदाहरण के लिए, इस मॉडल का इस्तेमाल करके, 1,814 किलोग्राम वज़न वाली कार के लिए, ईंधन की खपत का अनुमान 6.6 किलोमीटर प्रति लीटर लगाया गया है.

इमेज 4. यह दूसरी इमेज में दिखाए गए ग्राफ़ जैसा ही है. इसमें पॉइंट (4, 15.6) को हाइलाइट किया गया है.

चौथी इमेज. इस मॉडल का इस्तेमाल करके, 1,814.37 कि॰ग्रा॰ वज़न वाली कार के लिए, ईंधन की खपत का अनुमान 6.63 कि॰मी॰ प्रति लीटर लगाया गया है.

एक से ज़्यादा सुविधाओं वाले मॉडल

इस सेक्शन में दिए गए उदाहरण में, सिर्फ़ एक सुविधा का इस्तेमाल किया गया है. यह सुविधा, कार का वज़न है. हालांकि, ज़्यादा बेहतर मॉडल में कई सुविधाओं का इस्तेमाल किया जा सकता है. हर सुविधा का अलग-अलग वज़न होता है ($ w_1 $, $ w_2 $ वगैरह). उदाहरण के लिए, पांच सुविधाओं पर निर्भर मॉडल को इस तरह लिखा जाएगा:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

उदाहरण के लिए, गैस माइलेज का अनुमान लगाने वाला मॉडल, इन सुविधाओं का इस्तेमाल भी कर सकता है:

  • इंजन का डिसप्लेसमेंट
  • त्वरण (एक्सेलेरेशन)
  • सिलिंडरों की संख्या
  • हॉर्सपावर

इस मॉडल को इस तरह लिखा जाएगा:

इमेज 5. पांच सुविधाओं वाला लीनियर रिग्रेशन समीकरण.

पांचवीं इमेज. कार के माइलेज की रेटिंग का अनुमान लगाने के लिए, पांच सुविधाओं वाला मॉडल.

इन अतिरिक्त सुविधाओं में से कुछ को ग्राफ़ पर दिखाने से पता चलता है कि इनका भी लेबल, माइल्स पर गैलन से लीनियर संबंध है:

इमेज 6. क्यूबिक सेंटीमीटर में इंजन के साइज़ को माइलेज के हिसाब से ग्राफ़ में दिखाया गया है. इसमें नेगेटिव लीनियर रिलेशनशिप दिख रहा है.

छठी इमेज. किसी कार का इंजन कितने क्यूबिक सेंटीमीटर का है और वह एक गैलन में कितने मील चलती है. कार का इंजन जितना बड़ा होता है, आम तौर पर उसका माइलेज उतना ही कम होता है.

इमेज 7. इस ग्राफ़ में, शून्य से 60 मील प्रति घंटे की रफ़्तार तक पहुंचने में लगने वाले समय को सेकंड में दिखाया गया है. साथ ही, इसमें माइलेज को मील प्रति गैलन में दिखाया गया है. इससे पता चलता है कि दोनों के बीच पॉज़िटिव लीनियर संबंध है.

सातवीं इमेज. कार की रफ़्तार बढ़ने की दर और माइलेज. कार की स्पीड बढ़ने में जितना ज़्यादा समय लगता है, वह उतना ही ज़्यादा माइलेज देती है.

एक्सरसाइज़: देखें कि आपको कितना समझ आया

ट्रेनिंग के दौरान, लीनियर रिग्रेशन इक्वेशन के किन हिस्सों को अपडेट किया जाता है?
पूर्वाग्रह और वज़न
ट्रेनिंग के दौरान, मॉडल फ़र्क़ और वज़न को अपडेट करता है.
अनुमान
ट्रेनिंग के दौरान अनुमान अपडेट नहीं किए जाते.
सुविधा की वैल्यू
फ़ीचर वैल्यू, डेटासेट का हिस्सा होती हैं. इसलिए, ट्रेनिंग के दौरान इन्हें अपडेट नहीं किया जाता.