Misingi ya Regression

Kiwango cha Ugumu: Kati Muda wa Kusoma: 15 dakika

Kutabiri kwa Mstari

Katika somo la uhusiano (correlation), tulijifunza jinsi ya kupima kama vigezo viwili vinahusiana. Sasa tunaenda hatua moja zaidi: regression inatusaidia kutumia kigezo kimoja kutabiri kingine. Kama tunapata uhusiano kati ya mvua na mavuno, regression inatuwezesha kusema: "Kama mvua ni milimita 800 msimu huu, tunatarajia mavuno ya takriban gunia 15 kwa ekari."

2 4 6 8 10 5 10

Regression ya Mstari Rahisi

Regression ya mstari rahisi (simple linear regression) inatafuta mstari bora unaofaa data yako. Mstari huu unaelezwa kwa mlinganyo:

y = a + bx

  • y: Kigezo tegemezi (unachotabiri)
  • x: Kigezo huru (unachotumia kutabiri)
  • a: Makutano (intercept) - thamani ya y wakati x = 0
  • b: Mteremko (slope) - kiasi ambacho y kinabadilika kwa kila ongezeko la 1 katika x
Mfano

Mtafiti anachunguza uhusiano kati ya mvua (mm) na mavuno ya mahindi (gunia/ekari) katika wilaya 20. Baada ya regression:

Mavuno = 2.0 + 0.015 × Mvua

  • a = 2.0: Kama hakuna mvua kabisa, tunatarajia gunia 2 kwa ekari (labda kutokana na umwagiliaji au unyevu wa udongo)
  • b = 0.015: Kwa kila milimita 1 ya mvua zaidi, mavuno yanaongezeka kwa gunia 0.015

Kwa mvua ya mm 800: Mavuno = 2.0 + 0.015 × 800 = 2.0 + 12.0 = gunia 14

Kwa mvua ya mm 1,000: Mavuno = 2.0 + 0.015 × 1,000 = 2.0 + 15.0 = gunia 17

Mstari Bora (Line of Best Fit)

Kuna mistari mingi inayoweza kupita katika data, lakini regression inatafuta mstari unaopunguza jumla ya makosa. Kwa usahihi, inapunguza jumla ya mraba wa tofauti kati ya thamani halisi na thamani zinazotabiriwa na mstari. Hii inaitwa "Least Squares" (mraba mdogo zaidi).

-3 -2 -1 0 1 2 3

R-Squared (R²) - Kipimo cha Ubora

R² inakuambia ni asilimia ngapi ya mabadiliko katika kigezo tegemezi yanayoelezwa na kigezo huru. Ni mraba wa mgawo wa uhusiano r.

  • R² = 0: Mstari hauelezi mabadiliko yoyote. Kigezo huru hakifai kutabiri.
  • R² = 1: Mstari unaeleza mabadiliko yote. Utabiri ni kamili.
  • R² = 0.64: Asilimia 64 ya mabadiliko katika y yanaelezwa na x.
Mfano

Katika utafiti wa mvua na mavuno, R² = 0.58. Hii inamaanisha mvua inaeleza asilimia 58 ya mabadiliko katika mavuno. Asilimia 42 iliyobaki inaelezwa na mambo mengine - aina ya mbegu, mbolea, ubora wa udongo, wadudu, nk.

Kusoma Matokeo ya Regression

Programu za kompyuta zinatoa matokeo kadhaa muhimu:

2 4 6 8 10 2 4 6 8 10
  • Mgawo (Coefficients): a na b - nambari za mlinganyo
  • P-value ya b: Je, mteremko ni wa maana ya kitakwimu? (p < 0.05 inamaanisha uhusiano ni wa kweli)
  • R²: Ni kiasi gani cha mabadiliko kinaelezwa?
  • Standard Error: Usahihi wa makadirio
Mfano

Benki ya NMB inataka kutabiri kiasi cha mkopo mtu anachoomba kulingana na mapato yake ya kila mwezi. Data ya wateja 200:

Mkopo = 500,000 + 3.2 × Mapato

R² = 0.71, p-value ya mteremko < 0.001

Tafsiri: Kwa kila shilingi 1 ya mapato ya ziada, mteja anaomba shilingi 3.2 za mkopo zaidi. Asilimia 71 ya mabadiliko ya mkopo yanaelezwa na mapato. Mtu anayepata Tsh 800,000 kwa mwezi anatarajiwa kuomba mkopo wa takriban Tsh 500,000 + 3.2 × 800,000 = Tsh 3,060,000.

Tahadhari za Regression

  • Usitabiri nje ya masafa ya data: Kama data yako ya mvua ni kati ya mm 400-1,200, usitabiri mavuno kwa mvua ya mm 2,000 - mstari huenda usifae nje ya masafa.
  • Uhusiano wa mstari: Regression ya mstari inafaa tu kama uhusiano ni wa mstari. Kama uhusiano una umbo tofauti (kama kengele), mstari hautoufaa.
  • Uhusiano si sababu: Kama katika uhusiano, regression haithibitishi sababu.
  • Outliers zinaweza kupotosha mstari: Thamani moja isiyo ya kawaida inaweza kubadilisha mteremko na makutano kwa kiasi kikubwa.

Mfano wa Vitendo: Bei ya Nyumba

Mfano

Kampuni ya mali isiyohamishika Dar es Salaam inataka kutabiri bei ya nyumba kulingana na ukubwa (mita za mraba). Data ya nyumba 50:

Bei (Tsh milioni) = 15 + 0.8 × Ukubwa (m²)

R² = 0.62

  • Nyumba ya m² 100: Bei ≈ 15 + 80 = Tsh 95 milioni
  • Nyumba ya m² 200: Bei ≈ 15 + 160 = Tsh 175 milioni
  • Kwa kila m² ya ziada, bei inapanda takriban Tsh 800,000

Lakini R² ya 0.62 inamaanisha mambo mengine (eneo, umri wa nyumba, hali) yanaeleza asilimia 38 ya tofauti za bei.

Jambo Muhimu

Regression ya mstari inatumia mlinganyo y = a + bx kutabiri kigezo kimoja kutoka kingine. Mteremko b unakuambia kiasi cha mabadiliko kwa kila ongezeko la 1 katika x. R² inapima ni kiasi gani cha mabadiliko kinachoelezwa na mfano. Usitabiri nje ya masafa ya data yako, na kumbuka kwamba regression haithibitishi sababu - inabainisha uhusiano tu.