রিগ্রেশন মূলসূত্র

কঠিনতা: মধ্যবর্তী পড়ার সময়: 15 মিনিট

সম্পর্ক থেকে পূর্বাভাস

পারস্পরিক সম্পর্কের পাঠে আমরা শিখেছি দুটো চলক একসাথে বদলায় কি না দেখা যায়। কিন্তু রিগ্রেশন আরেক ধাপ এগিয়ে - এটা বলে একটা চলক জানলে অন্যটা কত হবে সেটার পূর্বাভাস দেওয়া যায়।

2 4 6 8 10 5 10

যেমন, শুধু জানলে "পড়ার সময় আর পরীক্ষার নম্বরে সম্পর্ক আছে" - সেটা যথেষ্ট না। রিগ্রেশন বলবে "প্রতিদিন ১ ঘণ্টা বেশি পড়লে পরীক্ষায় গড়ে ৫ নম্বর বেশি পাওয়ার সম্ভাবনা।" এটা অনেক বেশি কাজের তথ্য।

সরল রৈখিক রিগ্রেশন

সবচেয়ে সরল রিগ্রেশন হলো সরল রৈখিক রিগ্রেশন - একটা সরলরেখা দিয়ে দুটো চলকের সম্পর্ক বর্ণনা করা।

Y = a + bX

  • Y: নির্ভরশীল চলক (যেটা পূর্বাভাস দিতে চান)
  • X: স্বাধীন চলক (যেটা দিয়ে পূর্বাভাস দেবেন)
  • a: ছেদবিন্দু (Y অক্ষে কোথায় রেখা শুরু)
  • b: ঢাল (X ১ একক বাড়লে Y কত বাড়ে বা কমে)
উদাহরণ

ধরুন একটা গবেষণায় দেখা গেল ঢাকায় ফ্ল্যাটের আকার (বর্গফুটে) আর ভাড়ার সম্পর্ক:

মাসিক ভাড়া = ৫,০০০ + ১২ × আয়তন (বর্গফুট)

  • a = ৫,০০০ টাকা (বেস ভাড়া - এলাকা, তলা ইত্যাদির জন্য)
  • b = ১২ টাকা/বর্গফুট (প্রতি বর্গফুটে ১২ টাকা বেশি)

৮০০ বর্গফুটের ফ্ল্যাটের আনুমানিক ভাড়া = ৫,০০০ + ১২ × ৮০০ = ৫,০০০ + ৯,৬০০ = ১৪,৬০০ টাকা

১,২০০ বর্গফুটের = ৫,০০০ + ১২ × ১,২০০ = ১৯,৪০০ টাকা

সবচেয়ে ভালো রেখা কোনটা?

রিগ্রেশন এমন রেখা খোঁজে যেটা সব বিন্দু থেকে সবচেয়ে কম দূরে। পদ্ধতিটাকে "ক্ষুদ্রতম বর্গ" (least squares) বলে - প্রতিটা বিন্দু আর রেখার দূরত্ব (ত্রুটি) বর্গ করে যোগফল সবচেয়ে কম করা হয়।

-3 -2 -1 0 1 2 3

R² - রিগ্রেশন কতটা ভালো?

R² (R-squared) বলে স্বাধীন চলক নির্ভরশীল চলকের ওঠানামার কত শতাংশ ব্যাখ্যা করে।

  • R² = ০.৮০: আয়তন ভাড়ার ওঠানামার ৮০% ব্যাখ্যা করে - চমৎকার!
  • R² = ০.৩০: মাত্র ৩০% ব্যাখ্যা করে - অন্য কিছুও প্রভাব ফেলছে
  • R² = ০.০৫: প্রায় কিছুই ব্যাখ্যা করে না - এই মডেল কাজের না
উদাহরণ

ধানের ফলন পূর্বাভাস দিতে শুধু সারের পরিমাণ দিয়ে রিগ্রেশন করলে R² = ০.৪০ পেলেন। মানে সার ফলনের ৪০% ব্যাখ্যা করে। বাকি ৬০%? পানি, মাটি, আবহাওয়া, বীজের জাত - এসব। তাই একাধিক চলক ব্যবহার করলে (বহু রিগ্রেশন) R² অনেক বাড়বে।

সাবধানতা

১. পরিসরের বাইরে পূর্বাভাস দেবেন না

যদি আপনার ডেটায় ৫০০-১৫০০ বর্গফুটের ফ্ল্যাট থাকে, তাহলে ৫০০০ বর্গফুটের ভাড়া এই মডেল দিয়ে আন্দাজ করা ঠিক না। সম্পর্ক হয়তো বড় আকারে আলাদা।

2 4 6 8 10 2 4 6 8 10

২. সম্পর্ক ≠ কার্যকারণ

রিগ্রেশন পূর্বাভাস দেয়, কার্যকারণ প্রমাণ করে না। আইসক্রিম বিক্রি দিয়ে ডুবে মরার হার পূর্বাভাস দেওয়া যায় (দুটো গরমে বাড়ে) - কিন্তু আইসক্রিম ডুবে মরার কারণ নয়!

৩. ব্যতিক্রমী মান

একটা চরম মান পুরো রেখাকে টেনে নিয়ে যেতে পারে।

বাস্তব ব্যবহার

  • কৃষি: সার, পানি ও আবহাওয়ার ডেটা থেকে ফলন পূর্বাভাস
  • অর্থনীতি: GDP বৃদ্ধির হার থেকে বেকারত্ব পূর্বাভাস
  • স্বাস্থ্য: বয়স, ওজন থেকে রক্তচাপ পূর্বাভাস
  • রিয়েল এস্টেট: আয়তন, এলাকা থেকে বাড়ির দাম পূর্বাভাস
মূল বিষয়

রিগ্রেশন একটা চলক থেকে অন্যটার পূর্বাভাস দেওয়ার পদ্ধতি। সরল রৈখিক রিগ্রেশন Y = a + bX সমীকরণ ব্যবহার করে, যেখানে b বলে X ১ একক বাড়লে Y কত বদলায়। R² বলে মডেল কতটা ভালো। কিন্তু মনে রাখবেন: ডেটার পরিসরের বাইরে পূর্বাভাস দেওয়া ঝুঁকিপূর্ণ, এবং রিগ্রেশন কার্যকারণ প্রমাণ করে না।