সম্পর্ক থেকে পূর্বাভাস
পারস্পরিক সম্পর্কের পাঠে আমরা শিখেছি দুটো চলক একসাথে বদলায় কি না দেখা যায়। কিন্তু রিগ্রেশন আরেক ধাপ এগিয়ে - এটা বলে একটা চলক জানলে অন্যটা কত হবে সেটার পূর্বাভাস দেওয়া যায়।
যেমন, শুধু জানলে "পড়ার সময় আর পরীক্ষার নম্বরে সম্পর্ক আছে" - সেটা যথেষ্ট না। রিগ্রেশন বলবে "প্রতিদিন ১ ঘণ্টা বেশি পড়লে পরীক্ষায় গড়ে ৫ নম্বর বেশি পাওয়ার সম্ভাবনা।" এটা অনেক বেশি কাজের তথ্য।
সরল রৈখিক রিগ্রেশন
সবচেয়ে সরল রিগ্রেশন হলো সরল রৈখিক রিগ্রেশন - একটা সরলরেখা দিয়ে দুটো চলকের সম্পর্ক বর্ণনা করা।
Y = a + bX
- Y: নির্ভরশীল চলক (যেটা পূর্বাভাস দিতে চান)
- X: স্বাধীন চলক (যেটা দিয়ে পূর্বাভাস দেবেন)
- a: ছেদবিন্দু (Y অক্ষে কোথায় রেখা শুরু)
- b: ঢাল (X ১ একক বাড়লে Y কত বাড়ে বা কমে)
ধরুন একটা গবেষণায় দেখা গেল ঢাকায় ফ্ল্যাটের আকার (বর্গফুটে) আর ভাড়ার সম্পর্ক:
মাসিক ভাড়া = ৫,০০০ + ১২ × আয়তন (বর্গফুট)
- a = ৫,০০০ টাকা (বেস ভাড়া - এলাকা, তলা ইত্যাদির জন্য)
- b = ১২ টাকা/বর্গফুট (প্রতি বর্গফুটে ১২ টাকা বেশি)
৮০০ বর্গফুটের ফ্ল্যাটের আনুমানিক ভাড়া = ৫,০০০ + ১২ × ৮০০ = ৫,০০০ + ৯,৬০০ = ১৪,৬০০ টাকা
১,২০০ বর্গফুটের = ৫,০০০ + ১২ × ১,২০০ = ১৯,৪০০ টাকা
সবচেয়ে ভালো রেখা কোনটা?
রিগ্রেশন এমন রেখা খোঁজে যেটা সব বিন্দু থেকে সবচেয়ে কম দূরে। পদ্ধতিটাকে "ক্ষুদ্রতম বর্গ" (least squares) বলে - প্রতিটা বিন্দু আর রেখার দূরত্ব (ত্রুটি) বর্গ করে যোগফল সবচেয়ে কম করা হয়।
R² - রিগ্রেশন কতটা ভালো?
R² (R-squared) বলে স্বাধীন চলক নির্ভরশীল চলকের ওঠানামার কত শতাংশ ব্যাখ্যা করে।
- R² = ০.৮০: আয়তন ভাড়ার ওঠানামার ৮০% ব্যাখ্যা করে - চমৎকার!
- R² = ০.৩০: মাত্র ৩০% ব্যাখ্যা করে - অন্য কিছুও প্রভাব ফেলছে
- R² = ০.০৫: প্রায় কিছুই ব্যাখ্যা করে না - এই মডেল কাজের না
ধানের ফলন পূর্বাভাস দিতে শুধু সারের পরিমাণ দিয়ে রিগ্রেশন করলে R² = ০.৪০ পেলেন। মানে সার ফলনের ৪০% ব্যাখ্যা করে। বাকি ৬০%? পানি, মাটি, আবহাওয়া, বীজের জাত - এসব। তাই একাধিক চলক ব্যবহার করলে (বহু রিগ্রেশন) R² অনেক বাড়বে।
সাবধানতা
১. পরিসরের বাইরে পূর্বাভাস দেবেন না
যদি আপনার ডেটায় ৫০০-১৫০০ বর্গফুটের ফ্ল্যাট থাকে, তাহলে ৫০০০ বর্গফুটের ভাড়া এই মডেল দিয়ে আন্দাজ করা ঠিক না। সম্পর্ক হয়তো বড় আকারে আলাদা।
২. সম্পর্ক ≠ কার্যকারণ
রিগ্রেশন পূর্বাভাস দেয়, কার্যকারণ প্রমাণ করে না। আইসক্রিম বিক্রি দিয়ে ডুবে মরার হার পূর্বাভাস দেওয়া যায় (দুটো গরমে বাড়ে) - কিন্তু আইসক্রিম ডুবে মরার কারণ নয়!
৩. ব্যতিক্রমী মান
একটা চরম মান পুরো রেখাকে টেনে নিয়ে যেতে পারে।
বাস্তব ব্যবহার
- কৃষি: সার, পানি ও আবহাওয়ার ডেটা থেকে ফলন পূর্বাভাস
- অর্থনীতি: GDP বৃদ্ধির হার থেকে বেকারত্ব পূর্বাভাস
- স্বাস্থ্য: বয়স, ওজন থেকে রক্তচাপ পূর্বাভাস
- রিয়েল এস্টেট: আয়তন, এলাকা থেকে বাড়ির দাম পূর্বাভাস
রিগ্রেশন একটা চলক থেকে অন্যটার পূর্বাভাস দেওয়ার পদ্ধতি। সরল রৈখিক রিগ্রেশন Y = a + bX সমীকরণ ব্যবহার করে, যেখানে b বলে X ১ একক বাড়লে Y কত বদলায়। R² বলে মডেল কতটা ভালো। কিন্তু মনে রাখবেন: ডেটার পরিসরের বাইরে পূর্বাভাস দেওয়া ঝুঁকিপূর্ণ, এবং রিগ্রেশন কার্যকারণ প্রমাণ করে না।