Kutabiri kwa Mstari
Katika somo la uhusiano (correlation), tulijifunza jinsi ya kupima kama vigezo viwili vinahusiana. Sasa tunaenda hatua moja zaidi: regression inatusaidia kutumia kigezo kimoja kutabiri kingine. Kama tunapata uhusiano kati ya mvua na mavuno, regression inatuwezesha kusema: "Kama mvua ni milimita 800 msimu huu, tunatarajia mavuno ya takriban gunia 15 kwa ekari."
Regression ya Mstari Rahisi
Regression ya mstari rahisi (simple linear regression) inatafuta mstari bora unaofaa data yako. Mstari huu unaelezwa kwa mlinganyo:
y = a + bx
- y: Kigezo tegemezi (unachotabiri)
- x: Kigezo huru (unachotumia kutabiri)
- a: Makutano (intercept) - thamani ya y wakati x = 0
- b: Mteremko (slope) - kiasi ambacho y kinabadilika kwa kila ongezeko la 1 katika x
Mtafiti anachunguza uhusiano kati ya mvua (mm) na mavuno ya mahindi (gunia/ekari) katika wilaya 20. Baada ya regression:
Mavuno = 2.0 + 0.015 × Mvua
- a = 2.0: Kama hakuna mvua kabisa, tunatarajia gunia 2 kwa ekari (labda kutokana na umwagiliaji au unyevu wa udongo)
- b = 0.015: Kwa kila milimita 1 ya mvua zaidi, mavuno yanaongezeka kwa gunia 0.015
Kwa mvua ya mm 800: Mavuno = 2.0 + 0.015 × 800 = 2.0 + 12.0 = gunia 14
Kwa mvua ya mm 1,000: Mavuno = 2.0 + 0.015 × 1,000 = 2.0 + 15.0 = gunia 17
Mstari Bora (Line of Best Fit)
Kuna mistari mingi inayoweza kupita katika data, lakini regression inatafuta mstari unaopunguza jumla ya makosa. Kwa usahihi, inapunguza jumla ya mraba wa tofauti kati ya thamani halisi na thamani zinazotabiriwa na mstari. Hii inaitwa "Least Squares" (mraba mdogo zaidi).
R-Squared (R²) - Kipimo cha Ubora
R² inakuambia ni asilimia ngapi ya mabadiliko katika kigezo tegemezi yanayoelezwa na kigezo huru. Ni mraba wa mgawo wa uhusiano r.
- R² = 0: Mstari hauelezi mabadiliko yoyote. Kigezo huru hakifai kutabiri.
- R² = 1: Mstari unaeleza mabadiliko yote. Utabiri ni kamili.
- R² = 0.64: Asilimia 64 ya mabadiliko katika y yanaelezwa na x.
Katika utafiti wa mvua na mavuno, R² = 0.58. Hii inamaanisha mvua inaeleza asilimia 58 ya mabadiliko katika mavuno. Asilimia 42 iliyobaki inaelezwa na mambo mengine - aina ya mbegu, mbolea, ubora wa udongo, wadudu, nk.
Kusoma Matokeo ya Regression
Programu za kompyuta zinatoa matokeo kadhaa muhimu:
- Mgawo (Coefficients): a na b - nambari za mlinganyo
- P-value ya b: Je, mteremko ni wa maana ya kitakwimu? (p < 0.05 inamaanisha uhusiano ni wa kweli)
- R²: Ni kiasi gani cha mabadiliko kinaelezwa?
- Standard Error: Usahihi wa makadirio
Benki ya NMB inataka kutabiri kiasi cha mkopo mtu anachoomba kulingana na mapato yake ya kila mwezi. Data ya wateja 200:
Mkopo = 500,000 + 3.2 × Mapato
R² = 0.71, p-value ya mteremko < 0.001
Tafsiri: Kwa kila shilingi 1 ya mapato ya ziada, mteja anaomba shilingi 3.2 za mkopo zaidi. Asilimia 71 ya mabadiliko ya mkopo yanaelezwa na mapato. Mtu anayepata Tsh 800,000 kwa mwezi anatarajiwa kuomba mkopo wa takriban Tsh 500,000 + 3.2 × 800,000 = Tsh 3,060,000.
Tahadhari za Regression
- Usitabiri nje ya masafa ya data: Kama data yako ya mvua ni kati ya mm 400-1,200, usitabiri mavuno kwa mvua ya mm 2,000 - mstari huenda usifae nje ya masafa.
- Uhusiano wa mstari: Regression ya mstari inafaa tu kama uhusiano ni wa mstari. Kama uhusiano una umbo tofauti (kama kengele), mstari hautoufaa.
- Uhusiano si sababu: Kama katika uhusiano, regression haithibitishi sababu.
- Outliers zinaweza kupotosha mstari: Thamani moja isiyo ya kawaida inaweza kubadilisha mteremko na makutano kwa kiasi kikubwa.
Mfano wa Vitendo: Bei ya Nyumba
Kampuni ya mali isiyohamishika Dar es Salaam inataka kutabiri bei ya nyumba kulingana na ukubwa (mita za mraba). Data ya nyumba 50:
Bei (Tsh milioni) = 15 + 0.8 × Ukubwa (m²)
R² = 0.62
- Nyumba ya m² 100: Bei ≈ 15 + 80 = Tsh 95 milioni
- Nyumba ya m² 200: Bei ≈ 15 + 160 = Tsh 175 milioni
- Kwa kila m² ya ziada, bei inapanda takriban Tsh 800,000
Lakini R² ya 0.62 inamaanisha mambo mengine (eneo, umri wa nyumba, hali) yanaeleza asilimia 38 ya tofauti za bei.
Regression ya mstari inatumia mlinganyo y = a + bx kutabiri kigezo kimoja kutoka kingine. Mteremko b unakuambia kiasi cha mabadiliko kwa kila ongezeko la 1 katika x. R² inapima ni kiasi gani cha mabadiliko kinachoelezwa na mfano. Usitabiri nje ya masafa ya data yako, na kumbuka kwamba regression haithibitishi sababu - inabainisha uhusiano tu.