इस मॉड्यूल में, लीनियर रिग्रेशन के कॉन्सेप्ट के बारे में बताया गया है.
लीनियर रिग्रेशन, सांख्यिकी से जुड़ी एक ऐसी तकनीक है जिसका इस्तेमाल वैरिएबल के बीच संबंध का पता लगाने के लिए किया जाता है. एमएल के संदर्भ में, लीनियर रिग्रेशन विशेषताओं और लेबल के बीच संबंध का पता लगाता है.
उदाहरण के लिए, मान लें कि हमें यह अनुमान लगाना है कि कार के वज़न के आधार पर, वह एक गैलन में कितने मील चलेगी. इसके लिए, हमारे पास यह डेटासेट है:
हज़ारों पाउंड में (फ़ीचर) | माइल प्रति गैलन (लेबल) |
---|---|
3.5 | 18 |
3.69 | 15 |
3.44 | 18 |
3.43 | 16 |
4.34 | 15 |
4.42 | 14 |
2.37 | 24 |
अगर हम इन पॉइंट को प्लॉट करते हैं, तो हमें यह ग्राफ़ मिलेगा:
पहली इमेज. कार का वज़न (पाउंड में) बनाम माइलेज (मील प्रति गैलन) रेटिंग. कार का वज़न बढ़ने पर, आम तौर पर उसकी माइलेज रेटिंग कम हो जाती है.
हम इन पॉइंट के बीच सबसे सही लाइन खींचकर, अपना मॉडल बना सकते हैं:
दूसरी इमेज. पिछली इमेज में दिए गए डेटा के हिसाब से सबसे सही लाइन.
लीनियर रिग्रेशन इक्वेशन
बीजगणित के हिसाब से, मॉडल को $ y = mx + b $ के तौर पर तय किया जाएगा. इसमें
- $ y $ माइल्स प्रति गैलन है. यह वह वैल्यू है जिसका हमें अनुमान लगाना है.
- $ m $ लाइन का स्लोप है.
- $ x $ पाउंड है, जो हमारी इनपुट वैल्यू है.
- $ b $ y-इंटरसेप्ट है.
एमएल में, लीनियर रिग्रेशन मॉडल के लिए समीकरण इस तरह लिखा जाता है:
कहां:
- $ y' $ अनुमानित लेबल है, जो आउटपुट है.
- $ b $ मॉडल का बायस है. बायस, बीजगणितीय समीकरण में y-इंटरसेप्ट के जैसा ही होता है. मशीन लर्निंग में, बायस को कभी-कभी $ w_0 $ कहा जाता है. बायस, मॉडल का पैरामीटर होता है और इसे ट्रेनिंग के दौरान कैलकुलेट किया जाता है.
- $ w_1 $, सुविधा का वज़न है. वेट, लाइन के लिए बीजगणितीय समीकरण में स्लोप $ m $ के कॉन्सेप्ट जैसा ही होता है. वज़न, मॉडल का एक पैरामीटर होता है. इसका हिसाब ट्रेनिंग के दौरान लगाया जाता है.
- $ x_1 $ एक विशेषता है, जो इनपुट है.
ट्रेनिंग के दौरान मॉडल, सबसे अच्छे मॉडल को बनाने के लिए वज़न और बायस का हिसाब लगाता है.
तीसरी इमेज. लीनियर मॉडल का गणितीय प्रतिनिधित्व.
हमारे उदाहरण में, हमने जो लाइन बनाई है उससे वज़न और बायस का हिसाब लगाया जाएगा. इसमें बायस 34 है (जहां लाइन, y-ऐक्सिस को काटती है) और वेट –4.6 है (लाइन का स्लोप). मॉडल को $ y' = 34 + (-4.6)(x_1) $ के तौर पर तय किया जाएगा. साथ ही, हम इसका इस्तेमाल अनुमान लगाने के लिए कर सकते हैं. उदाहरण के लिए, इस मॉडल का इस्तेमाल करके, 1,814 किलोग्राम वज़न वाली कार के लिए, ईंधन की खपत का अनुमान 6.6 किलोमीटर प्रति लीटर लगाया गया है.
चौथी इमेज. इस मॉडल का इस्तेमाल करके, 1,814.37 कि॰ग्रा॰ वज़न वाली कार के लिए, ईंधन की खपत का अनुमान 6.63 कि॰मी॰ प्रति लीटर लगाया गया है.
एक से ज़्यादा सुविधाओं वाले मॉडल
इस सेक्शन में दिए गए उदाहरण में, सिर्फ़ एक सुविधा का इस्तेमाल किया गया है. यह सुविधा, कार का वज़न है. हालांकि, ज़्यादा बेहतर मॉडल में कई सुविधाओं का इस्तेमाल किया जा सकता है. हर सुविधा का अलग-अलग वज़न होता है ($ w_1 $, $ w_2 $ वगैरह). उदाहरण के लिए, पांच सुविधाओं पर निर्भर मॉडल को इस तरह लिखा जाएगा:
$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $
उदाहरण के लिए, गैस माइलेज का अनुमान लगाने वाला मॉडल, इन सुविधाओं का इस्तेमाल भी कर सकता है:
- इंजन का डिसप्लेसमेंट
- त्वरण (एक्सेलेरेशन)
- सिलिंडरों की संख्या
- हॉर्सपावर
इस मॉडल को इस तरह लिखा जाएगा:
पांचवीं इमेज. कार के माइलेज की रेटिंग का अनुमान लगाने के लिए, पांच सुविधाओं वाला मॉडल.
इन अतिरिक्त सुविधाओं में से कुछ को ग्राफ़ पर दिखाने से पता चलता है कि इनका भी लेबल, माइल्स पर गैलन से लीनियर संबंध है:
छठी इमेज. किसी कार का इंजन कितने क्यूबिक सेंटीमीटर का है और वह एक गैलन में कितने मील चलती है. कार का इंजन जितना बड़ा होता है, आम तौर पर उसका माइलेज उतना ही कम होता है.
सातवीं इमेज. कार की रफ़्तार बढ़ने की दर और माइलेज. कार की स्पीड बढ़ने में जितना ज़्यादा समय लगता है, वह उतना ही ज़्यादा माइलेज देती है.