Wazo Linalobadilisha Kila Kitu
Nadharia ya Kikomo cha Kati (Central Limit Theorem, au CLT) ni moja ya mawazo muhimu zaidi katika takwimu nzima. Inasema hivi: ukichukua sampuli nyingi kutoka kwa idadi yoyote ya watu na kuhesabu wastani wa kila sampuli, wastani hizo zitaunda usambazaji wa kawaida (kengele) - hata kama data ya asili si ya kawaida kabisa.
Hii inaonekana ya ajabu. Data ya asili inaweza kuwa na umbo lolote - iliyopinda, sawa, au isiyokuwa na muundo wowote. Lakini wastani wa sampuli daima huisha kuunda kengele. Hii ndiyo sababu mbinu nyingi za takwimu zinafanya kazi.
Jinsi Inavyofanya Kazi
Fikiria bei ya bidhaa zote katika duka kubwa la Dar es Salaam. Bidhaa nyingi ni za bei ya chini (sabuni Tsh 500, chumvi Tsh 300), lakini kuna bidhaa chache za bei ya juu sana (TV Tsh 2,000,000, friji Tsh 1,500,000). Usambazaji wa bei unapinda sana kulia - si kawaida kabisa.
Sasa fanya hivi: chagua bidhaa 30 kwa nasibu na uhesabu wastani wa bei. Andika wastani. Rudia mara 100. Wastani hizo 100 zitaunda usambazaji unaofanana na kengele - hata ingawa bei za asili hazifuati kengele.
Masharti Matatu
- Sampuli ziwe kubwa za kutosha: Kwa kawaida, sampuli za ukubwa 30 au zaidi zinatosha. Kama data ya asili iko karibu na kawaida, hata sampuli ndogo zinafanya kazi.
- Sampuli ziwe huru: Kila sampuli inachaguliwa kwa nasibu, bila kuathiriwa na nyingine.
- Idadi ya watu iwe na wastani na tofauti ya ukomo: Hii ni kweli kwa data nyingi za ulimwengu wa kweli.
Kwa Nini Hii Ni Muhimu Sana?
CLT ndiyo msingi wa karibu kila mbinu ya takwimu za kukadiria. Kwa sababu wastani wa sampuli zinafuata usambazaji wa kawaida, tunaweza:
- Kuhesabu vipindi vya uhakika (confidence intervals)
- Kufanya majaribio ya dhana (hypothesis tests)
- Kutabiri usahihi wa makadirio yetu
- Kujua sampuli yetu inapaswa kuwa kubwa kiasi gani
NBS inataka kukadiria wastani wa mapato ya Watanzania. Wanachukua sampuli ya kaya 2,000 na kupata wastani wa Tsh 750,000. Kwa sababu ya CLT, wanajua kwamba wastani huu unatoka katika usambazaji wa kawaida. Hii inawapa uwezo wa kusema: "Tuna uhakika wa asilimia 95 kwamba wastani wa kweli uko kati ya Tsh 720,000 na Tsh 780,000."
Mfano wa Kete
Kete moja ina pande 6 zenye uwezekano sawa (1, 2, 3, 4, 5, 6). Usambazaji ni sawa (uniform) - si kawaida kabisa. Wastani ni 3.5.
Sasa geuza kete mara 30 na uhesabu wastani. Rudia mara 1,000. Wastani hizo 1,000 zitaunda kengele iliyokolea karibu na 3.5. Hii ni CLT ikifanya kazi - usambazaji sawa wa kete moja umebadilika kuwa kengele kwa wastani wa kete 30.
Ukubwa wa Sampuli Unaleta Tofauti
Kadri sampuli inavyokuwa kubwa, ndivyo:
- Usambazaji wa wastani unavyokuwa karibu na kawaida (kengele bora zaidi)
- Usambazaji unavyokuwa mwembamba (wastani zinakuwa karibu zaidi na wastani wa kweli)
- Makosa ya makadirio yanavyopungua
Kampuni ya kura za maoni inahoji watu kuhusu uchaguzi:
- Sampuli ya watu 100: Wastani wa support ni 52%, lakini inaweza kuwa kati ya 42% na 62% (masafa mapana)
- Sampuli ya watu 1,000: Wastani wa support ni 52%, lakini inaweza kuwa kati ya 49% na 55% (masafa finyu)
- Sampuli ya watu 10,000: Wastani wa support ni 52%, inaweza kuwa kati ya 51% na 53% (sahihi sana)
Sampuli kubwa zaidi inatoa makadirio sahihi zaidi kwa sababu ya CLT.
Kosa la Kawaida la Kiwango (Standard Error)
Kupotoka kwa kawaida kwa usambazaji wa wastani wa sampuli kinaitwa "standard error." Kinahesabiwa kwa:
Standard Error = SD ya idadi ya watu ÷ √n
Ambapo n ni ukubwa wa sampuli. Hii inakuambia jinsi wastani wa sampuli unavyoweza kutofautiana kutoka wastani wa kweli.
CLT Katika Maisha ya Kila Siku
Huhitaji kufanya mahesabu ya CLT mwenyewe, lakini kuelewa kanuni kunakusaidia:
- Kuelewa kwa nini kura za maoni zinaweza kukadiria uchaguzi wa nchi nzima kwa kuuliza watu 2,000 tu
- Kuelewa kwa nini mashirika ya dawa yanahitaji wagonjwa wa kutosha katika majaribio ya kliniki
- Kuelewa kwa nini NBS inachagua kaya nyingi katika utafiti wao badala ya chache
Nadharia ya Kikomo cha Kati inasema wastani wa sampuli nyingi zinafuata usambazaji wa kawaida, haijalishi umbo la data ya asili. Hii inafanya kazi kwa sampuli za ukubwa 30 au zaidi. CLT ndiyo msingi wa vipindi vya uhakika, majaribio ya dhana, na mbinu nyingi za takwimu za kukadiria. Sampuli kubwa zaidi inatoa usambazaji mwembamba zaidi na makadirio sahihi zaidi.