Apa Itu Pencilan?
Pencilan (outlier) adalah nilai yang terlihat jelas berbeda dari sisa data. Nilai ini berada jauh dari tempat kebanyakan nilai lain berkumpul. Pencilan tidak otomatis berarti kesalahan — kadang-kadang mereka justru bagian paling menarik dari data Anda.
Sembilan siswa mengerjakan kuis. Nilai mereka: 62, 65, 67, 68, 70, 71, 72, 74, 98
Kebanyakan nilai berkumpul antara 62 dan 74. Nilai 98 menonjol — jauh lebih tinggi dari yang lain. Itu adalah pencilan.
Pencilan bisa muncul di kedua ujung. Sebuah nilai bisa luar biasa tinggi atau luar biasa rendah. Kadang ada lebih dari satu pencilan dalam dataset.
Bagaimana Pencilan Mempengaruhi Mean
Seperti yang kita pelajari dalam pelajaran tentang mean, median, dan modus, mean sensitif terhadap nilai ekstrem. Ini adalah konsekuensi praktis terpenting dari pencilan.
Sebuah startup kecil punya 6 karyawan dengan gaji tahunan berikut:
Rp5 jt · Rp6 jt · Rp7 jt · Rp7,5 jt · Rp8 jt · Rp60 jt
Dengan pencilan (Rp60 jt):
- Mean = Rp15,6 juta
- Median = Rp7,25 juta
Tanpa pencilan:
- Mean = Rp6,7 juta
- Median = Rp7 juta
Menghapus satu gaji tinggi menjatuhkan mean hampir Rp9 juta, tapi median hampir tidak berubah. Inilah mengapa median sering lebih disukai ketika ada pencilan.
Bagaimana Pencilan Mempengaruhi Statistik Lainnya
Bukan hanya mean. Pencilan juga bisa menggelembungkan rentang, varians, dan deviasi standar, membuat data tampak lebih tersebar dari yang sebenarnya untuk kebanyakan nilai.
Pelanggan harian di warung bakso selama 7 hari: 45, 48, 50, 52, 47, 51, 310
Selama enam hari, lalu lintas stabil di sekitar 45-52 pelanggan. Tapi pada satu hari, acara besar di dekatnya membawa masuk 310 orang.
Rentang dengan pencilan: 310 - 45 = 265
Rentang tanpanya: 52 - 45 = 7
Pencilan membuat warung bakso terlihat sangat tidak konsisten padahal kenyataannya lalu lintas hariannya sangat stabil.
Dari Mana Pencilan Berasal?
Memahami mengapa pencilan ada membantu Anda memutuskan apa yang harus dilakukan dengannya. Ada beberapa penyebab umum:
1. Kesalahan Entri Data
Seseorang mengetik 10.000.000 alih-alih 1.000.000 di spreadsheet. Sensor rusak dan mencatat suhu 500 derajat Celsius di ruangan. Ini adalah kesalahan, dan harus diperbaiki atau dihapus.
2. Kesalahan Pengukuran
Timbangan tidak dikalibrasi dengan benar, atau pertanyaan survei membingungkan dan seseorang salah memahaminya. Pencilan seperti ini tidak mewakili informasi nyata dan biasanya bisa disisihkan.
3. Nilai Ekstrem yang Asli
Kadang kenyataan memang menghasilkan angka yang ekstrem. Pemain bulu tangkis profesional di liga rekreasi, rumah mewah di lingkungan rumah sederhana, postingan TikTok viral di antara ratusan postingan biasa. Pencilan ini nyata dan bermakna.
4. Populasi Berbeda yang Tercampur
Jika Anda tidak sengaja menggabungkan data dari dua kelompok yang sangat berbeda — misalnya, gaji pekerja paruh waktu dan CEO dalam dataset yang sama — gaji CEO akan terlihat seperti pencilan. Ini sering berarti data harus dianalisis dalam kelompok terpisah.
Kapan Mempertahankan Pencilan
Pencilan harus dipertahankan ketika mereka mewakili titik data yang asli dan akurat yang merupakan bagian dari cerita yang ingin Anda pahami.
Rumah sakit melacak berapa lama pasien menunggu di UGD. Kebanyakan menunggu 20-45 menit, tapi satu pasien menunggu 6 jam karena kegagalan sistem.
Menunggu 6 jam itu pencilan, tapi nyata. Menghapusnya akan menyembunyikan masalah serius. Dalam kasus ini, pencilan bisa dibilang titik data paling penting.
Secara umum, pertahankan pencilan ketika:
- Mereka adalah pengukuran yang akurat (bukan kesalahan)
- Mereka mewakili kejadian atau pola penting
- Menghapusnya akan menyembunyikan informasi yang dibutuhkan audiens Anda
- Anda mencoba memahami rentang penuh dari apa yang mungkin
Kapan Menghapus (atau Memisahkan) Pencilan
Kadang pencilan mendistorsi analisis Anda begitu banyak sehingga mencegah Anda memahami pola utama dalam data.
Anda menganalisis pengeluaran belanja bulanan tipikal rumah tangga di sebuah kelurahan. Kebanyakan rumah tangga menghabiskan Rp2-4 juta per bulan. Satu rumah tangga menghabiskan Rp50 juta karena mereka menjalankan bisnis katering dari rumah.
Memasukkan rumah tangga itu akan memiringkan rata-rata dan memberi gambaran yang menyesatkan tentang pengeluaran tipikal. Anda mungkin melaporkan hasilnya dua cara: "Rata-rata rumah tangga menghabiskan Rp2,8 juta per bulan, tidak termasuk satu pembeli komersial yang menghabiskan Rp50 juta."
Pertimbangkan menghapus atau melaporkan pencilan secara terpisah ketika:
- Mereka disebabkan oleh kesalahan (salah ketik, kerusakan peralatan)
- Mereka berasal dari populasi berbeda dari yang Anda pelajari
- Mereka mendistorsi analisis kelompok utama begitu banyak sehingga pola menjadi tidak terlihat
- Anda mencatat penghapusan mereka dengan jelas agar analisis tetap jujur
Aturan Emas: Selalu Laporkan Apa yang Anda Lakukan
Entah Anda mempertahankan atau menghapus pencilan, transparansi itu esensial. Jika Anda menghapus titik data, katakan. Jelaskan mengapa. Tunjukkan hasil baik dengan maupun tanpa pencilan jika memungkinkan. Diam-diam membuang titik data yang tidak nyaman adalah salah satu cara paling umum statistik dimanipulasi, bahkan tanpa sengaja.
Metode Sederhana untuk Mengidentifikasi Pencilan
Bagaimana Anda memutuskan apakah suatu nilai termasuk pencilan? Berikut dua pendekatan yang mudah:
Metode deviasi standar: Nilai apa pun yang lebih dari 2 atau 3 deviasi standar dari mean sering dianggap pencilan. Menggunakan aturan 68-95-99,7, nilai di luar 3 deviasi standar terjadi kurang dari 0,3% dari waktu pada data berbentuk lonceng.
Metode IQR: Cari 50% tengah data Anda (rentang interkuartil, atau IQR). Nilai apa pun yang lebih dari 1,5 kali IQR di bawah kuartil pertama atau di atas kuartil ketiga ditandai sebagai pencilan. Ini adalah metode di balik "kumis" dalam diagram kotak-kumis (box plot).
Anda tidak perlu menghafal rumus-rumus ini sekarang. Yang penting adalah mengetahui ada cara sistematis untuk mengidentifikasi pencilan — ini bukan sekadar perasaan.
Pencilan adalah titik data yang berada jauh dari sisa nilai Anda. Mereka bisa disebabkan oleh kesalahan, kejadian ekstrem yang asli, atau populasi yang tercampur. Pencilan menarik mean, menggelembungkan rentang, dan meningkatkan deviasi standar. Respons yang tepat tergantung konteks: pertahankan mereka ketika nyata dan penting, hapus atau laporkan secara terpisah ketika mereka mendistorsi pemahaman Anda tentang pola utama. Apa pun yang Anda putuskan, selalu transparan tentang hal itu.