تعلقات سے پیشگوئیاں
ہم آہنگی کے سبق میں ہم نے سیکھا کہ دو چیزوں کے ساتھ چلنے کو کیسے ناپیں۔ لیکن ہم آہنگی بس تعلق بتاتی ہے - مخصوص پیشگوئیاں نہیں دیتی۔ ریگریشن یہاں آتا ہے۔
ریگریشن دو متغیرات کے تعلق میں سے ایک لائن کھینچتا ہے۔ وہ لائن پیشگوئی کا اوزار بن جاتی ہے: مجھے ایک عدد دو، میں دوسرے کا اندازہ لگاتا ہوں۔
بہترین فٹ لائن
سکیٹر پلاٹ پر نقاط بکھرے ہوتے ہیں۔ ریگریشن ان نقاط کے درمیان سے ایسی سیدھی لائن کھینچتا ہے جو تمام نقاط سے مجموعی طور پر سب سے کم دوری رکھتی ہے۔ اسے "بہترین فٹ لائن" یا "ریگریشن لائن" کہتے ہیں۔
30 طلبا کے پڑھائی کے گھنٹے (x) اور FSc نمبر (y) کا ڈیٹا ہے۔ سکیٹر پلاٹ دکھاتا ہے نقاط نیچے بائیں سے اوپر دائیں جاتے ہیں - مثبت تعلق۔
ریگریشن لائن: نمبر = 400 + 30 × (پڑھائی کے گھنٹے)
اس لائن سے پیشگوئی: اگر کوئی 5 گھنٹے پڑھے تو متوقع نمبر = 400 + 30(5) = 550۔
لائن کا مساوات: y = a + bx
ریگریشن لائن ہمیشہ اس شکل میں ہوتی ہے:
- y: منحصر متغیر (جس کی پیشگوئی کرنا ہے)
- x: آزاد متغیر (جس سے پیشگوئی کرنا ہے)
- a (intercept): جب x = 0 ہو تو y کی قدر
- b (slope/ڈھلوان): x میں 1 اکائی اضافے سے y میں کتنی تبدیلی ہوتی ہے
ایک کسان کھاد (کلو/ایکڑ) اور گندم کی پیداوار (من/ایکڑ) کا ڈیٹا جمع کرتا ہے۔
ریگریشن لائن: پیداوار = 20 + 0.25 × کھاد
Intercept (20): بغیر کھاد کے متوقع پیداوار 20 من/ایکڑ
ڈھلوان (0.25): ہر اضافی کلو کھاد سے پیداوار تقریباً 0.25 من بڑھتی ہے
50 کلو کھاد ڈالنے سے: متوقع پیداوار = 20 + 0.25(50) = 32.5 من/ایکڑ
R² - ریگریشن کتنا اچھا فٹ ہے
R² (آر مربع) بتاتا ہے کہ آزاد متغیر منحصر متغیر کی کتنی تبدیلی واضح کرتا ہے۔ یہ 0 سے 1 کے درمیان ہوتا ہے:
- R² = 0: ماڈل کچھ نہیں سمجھاتا
- R² = 1: ماڈل مکمل طور پر سمجھاتا ہے
- R² = 0.65: آزاد متغیر منحصر کی 65 فیصد تبدیلی واضح کرتا ہے
کھاد اور پیداوار کے ریگریشن میں R² = 0.72 آتا ہے۔ مطلب: کھاد کی مقدار پیداوار کی 72 فیصد تبدیلی واضح کرتی ہے۔ باقی 28 فیصد دوسرے عوامل (بارش، مٹی، موسم) سے ہے۔
اہم تنبیہات
حد سے باہر پیشگوئی نہ کریں
اگر آپ کا ڈیٹا 10-80 کلو کھاد کی حد میں ہے تو 200 کلو کے لیے پیشگوئی مت کریں۔ آپ نہیں جانتے تعلق وہاں بھی ایسا ہی رہے گا۔
سببیت فرض نہ کریں
ریگریشن تعلق ناپتا ہے، سبب نہیں بتاتا۔ صرف اس لیے کہ x سے y کی پیشگوئی ہو سکتی ہے اس کا مطلب x نے y کا سبب بنایا ضروری نہیں۔
PSL میں ایک ٹیم کے سوشل میڈیا فالورز (x) اور جیتے ہوئے میچ (y) میں مثبت ریگریشن تعلق ہے۔ کیا زیادہ فالورز جیت کا سبب بنتے ہیں؟ نہیں! جیتنے والی ٹیمیں زیادہ فالورز حاصل کرتی ہیں، اور دونوں ٹیم کی مجموعی کارکردگی اور سرمایہ کاری سے متاثر ہیں۔
ریگریشن کے عملی استعمال
- زراعت: بارش/کھاد سے پیداوار کی پیشگوئی
- رئیل اسٹیٹ: مربع فٹ سے مکان کی قیمت کا اندازہ
- تعلیم: حاضری سے امتحانی نتائج کی پیشگوئی
- کاروبار: اشتہاری خرچ سے فروخت کا اندازہ
ریگریشن دو متغیرات کے تعلق میں سے بہترین فٹ لائن کھینچتا ہے تاکہ ایک سے دوسرے کی پیشگوئی ہو سکے۔ ڈھلوان بتاتا ہے x میں تبدیلی سے y کتنا بدلتا ہے۔ R² بتاتا ہے ماڈل کتنا اچھا ہے۔ لیکن یاد رکھیں: ڈیٹا کی حد سے باہر پیشگوئی خطرناک ہے، اور ریگریشن سببیت ثابت نہیں کرتا۔ یہ ایک طاقتور پیشگوئی کا اوزار ہے جب سمجھداری سے استعمال ہو۔