Thamani Zisizo za Kawaida

Kiwango cha Ugumu: Mwanzo Muda wa Kusoma: 8 dakika

Outlier ni Nini?

Outlier ni thamani katika data yako ambayo ni tofauti sana na thamani nyingine. Ni kama mtu aliyevaa suti rasmi katika mechi ya mpira - anasimama kwa sababu hafanani na wengine. Outlier inaweza kuwa kubwa sana au ndogo sana kuliko thamani nyingine katika data.

22 26 30 34 38 42 45 27.8 25.5

Outliers si lazima ziwe "mbaya" - wakati mwingine ni taarifa muhimu zaidi katika data yako. Lakini zinaweza pia kupotosha uchambuzi wako kama huzishughulikii kwa uangalifu.

Jinsi ya Kutambua Outliers

Njia ya 1: Kuangalia Data

Njia rahisi zaidi ni kuipanga data yako kutoka ndogo hadi kubwa na kuangalia thamani zilizo mbali na nyingine.

Mfano

Mishahara ya wafanyakazi 8 katika ofisi ya Arusha (Tsh kwa mwezi):

350,000 · 400,000 · 420,000 · 450,000 · 470,000 · 500,000 · 520,000 · 3,500,000

Thamani ya Tsh 3,500,000 inasimama wazi - ni mara 7 zaidi ya mishahara mingine. Hii ni outlier dhahiri.

Njia ya 2: Kanuni ya IQR

Njia ya kitakwimu zaidi ni kutumia "Interquartile Range" (IQR):

  1. Panga data kutoka ndogo hadi kubwa
  2. Pata Q1 (robo ya kwanza - thamani ya asilimia 25) na Q3 (robo ya tatu - thamani ya asilimia 75)
  3. Hesabu IQR = Q3 - Q1
  4. Thamani yoyote chini ya Q1 - 1.5 × IQR au juu ya Q3 + 1.5 × IQR ni outlier

Njia ya 3: Kanuni ya Kupotoka kwa Kawaida

Kwa data inayofuata usambazaji wa kawaida, thamani yoyote iliyo zaidi ya kupotoka 3 kutoka wastani inachukuliwa kama outlier - kwa sababu asilimia 99.7 ya data inapaswa kuwa ndani ya masafa hayo.

Outliers Zinaweza Kupotosha Uchambuzi

Mfano

Mavuno ya mahindi (gunia kwa ekari) kutoka mashamba 9 mkoa wa Iringa: 8, 10, 9, 11, 10, 12, 9, 10, 45.

8 20-24 15 25-29 5 30-34 2 35-39 1 40+

Na outlier (45): Mean = 124 ÷ 9 ≈ 13.8, SD ≈ 11.2

Bila outlier: Mean = 79 ÷ 8 ≈ 9.9, SD ≈ 1.2

Shamba moja (labda la umwagiliaji wa kisasa) limevuta mean juu kwa gunia 4 na kufanya SD kuwa mara 9 kubwa zaidi. Uchambuzi unabadilika kabisa kwa sababu ya thamani moja.

Sababu za Outliers

Kabla ya kuamua jinsi ya kushughulikia outlier, ni muhimu kuelewa sababu yake:

  • Kosa la kuingiza data: Mtu aliandika Tsh 50,000 badala ya Tsh 5,000. Hii ni outlier ya uongo inayopaswa kusahihishwa.
  • Kosa la kipimo: Mizani ilibadilika ghafla na kusoma kilo 200 badala ya kilo 20. Inapaswa kusahihishwa au kuondolewa.
  • Thamani ya kweli isiyo ya kawaida: Mwanafunzi mmoja alipata alama 98 katika mtihani ambapo wastani ni 55. Hakuna kosa - ni mwanafunzi bora sana. Hii ni taarifa muhimu.
  • Idadi tofauti ya watu: Mtu tajiri sana katika utafiti wa mapato ya kijiji. Ni halali lakini anaweza kuwa kutoka idadi tofauti ya watu.
Mfano

Utafiti wa mapato katika kijiji cha Kilimanjaro: kaya nyingi zinapata Tsh 200,000-500,000 kwa mwezi. Lakini kaya moja inapata Tsh 8,000,000. Baada ya kuchunguza, inagundulika kwamba mwenye kaya ana biashara kubwa ya utalii na si mkulima kama wengine. Huenda hii ni halali lakini inawakilisha kundi tofauti - na kuijumuisha inaweza kupotosha picha ya mapato ya wakulima.

Jinsi ya Kushughulikia Outliers

Hakuna jibu moja sahihi. Unapaswa kuzingatia sababu na athari:

22 23 24 25 26 27 28 25.0 25.0
  • Sahihisha kama ni kosa: Kama outlier ilitokana na kosa la kuingiza data au kipimo, sahihisha au uondoe.
  • Weka kando lakini usiiondoe: Ripoti matokeo na bila outlier ili wasomaji waone athari yake.
  • Tumia vipimo visivyoathiriwa: Tumia median badala ya mean, na IQR badala ya kupotoka kwa kawaida.
  • Chunguza zaidi: Outlier inaweza kuwa ugunduzi muhimu. Mgonjwa mmoja anayepona haraka sana anaweza kuwa na kinga ya asili - hii ni taarifa muhimu ya kimatibabu.

Mfano wa Vitendo: Bei za Nyumba

Mfano

Kampuni ya mali isiyohamishika Dar es Salaam inataka kujua bei ya wastani ya nyumba katika eneo la Kinondoni. Bei za nyumba 10 (Tsh milioni): 80, 85, 90, 95, 100, 105, 110, 120, 130, 850.

Mean na outlier: Tsh 176.5 milioni - haifai kwa sababu 9 kati ya 10 ni chini ya Tsh 130 milioni.

Median: Tsh 102.5 milioni - picha bora zaidi.

Nyumba ya Tsh 850 milioni ni labda katika eneo la kifahari (Masaki/Oyster Bay) ambalo haliko sawa na nyumba nyingine. Inaweza kuondolewa au kuripotiwa kando.

Jambo Muhimu

Outliers ni thamani zilizo tofauti sana na data nyingine. Zinaweza kutokana na makosa (zinapaswa kusahihishwa) au kuwa thamani za kweli zisizo za kawaida (zinapaswa kuchunguzwa). Outliers zinaweza kupotosha mean na kupotoka kwa kawaida kwa kiasi kikubwa. Tumia median na IQR kwa data yenye outliers, na daima chunguza sababu ya outlier kabla ya kuiondoa.