শতমক কী?
একটি শতমক আপনাকে বলে একটি তথ্যসেটে একটি নির্দিষ্ট বিন্দুর নিচে কত শতাংশ মান পড়ে। আপনার পরীক্ষার নম্বর যদি ৮৫তম শতমকে থাকে, তার মানে আপনি ৮৫% পরীক্ষার্থীর চেয়ে বেশি নম্বর পেয়েছেন। এর মানে এই নয় যে আপনি ৮৫% প্রশ্নের সঠিক উত্তর দিয়েছেন -- শতমক সবার তুলনায় আপনার স্থান বর্ণনা করে, পরম কর্মক্ষমতা নয়।
শতমক সর্বত্র ব্যবহৃত হয়। শিশুরোগ বিশেষজ্ঞরা শতমক চার্ট ব্যবহার করে শিশুদের উচ্চতা ও ওজন ট্র্যাক করেন। SAT এবং GRE-এর মতো মানসম্মত পরীক্ষা শতমক হিসাবে নম্বর রিপোর্ট করে। বেতন জরিপ শতমকে ক্ষতিপূরণ বর্ণনা করে।
সবচেয়ে বেশি উল্লেখিত শতমক হলো চতুর্থক, যা তথ্যকে চারটি সমান ভাগে ভাগ করে। ২৫তম শতমক হলো Q1 (প্রথম চতুর্থক), ৫০তম শতমক হলো Q2 (মধ্যমা), এবং ৭৫তম শতমক হলো Q3 (তৃতীয় চতুর্থক)। সর্বনিম্ন এবং সর্বোচ্চ সহ, এই পাঁচটি মান পাঁচ-সংখ্যার সারসংক্ষেপ গঠন করে -- একটি সম্পূর্ণ তথ্যসেটের একটি সংক্ষিপ্ত স্ন্যাপশট।
উপরের ডট প্লটে দেখতে পারেন বেশিরভাগ মান ২০ এবং ৩০ এর মধ্যে জড়ো হয়েছে, কিছু নিচু মান এবং ৫৫-তে একটি উচ্চ বহিঃস্থ মান আছে। শতমক প্রতিটি তথ্য বিন্দু তালিকাভুক্ত না করেই এই বন্টন সংক্ষেপে বর্ণনা করতে সাহায্য করে।
পাঁচ-সংখ্যার সারসংক্ষেপ
পাঁচ-সংখ্যার সারসংক্ষেপ পাঁচটি মান নিয়ে গঠিত: সর্বনিম্ন, Q1, মধ্যমা, Q3, এবং সর্বোচ্চ। এই পাঁচটি সংখ্যা আপনাকে বলে তথ্য কোথায় শুরু হয়, মাঝের ৫০% কোথায় বসে এবং তথ্য কোথায় শেষ হয়।
একজন ওয়েটারের ২০টি শিফটে অর্জিত দৈনিক টিপ বিবেচনা করুন: ১২, ১৫, ১৭, ১৯, ২১, ২২, ২৩, ২৪, ২৫, ২৬, ২৭, ২৮, ২৯, ৩০, ৩১, ৩৩, ৩৫, ৩৮, ৪২, ৫৫ টাকা। পাঁচ-সংখ্যার সারসংক্ষেপ হবে: সর্বনিম্ন = ১২, Q1 = ২০, মধ্যমা = ২৬.৫০, Q3 = ৩২, সর্বোচ্চ = ৫৫। এক নজরে আপনি দেখতে পারেন যে মাঝের ৫০% টিপ ২০ থেকে ৩২ এর মধ্যে পড়ে, সাধারণ টিপ প্রায় ২৬-২৭, এবং ৫৫-তে একটি অস্বাভাবিকভাবে বড় টিপের দিন আছে।
আন্তঃচতুর্থক পরিসর (IQR)
আন্তঃচতুর্থক পরিসর হলো কেবল Q3 বিয়োগ Q1। এটি চরম মানগুলো উপেক্ষা করে আপনার তথ্যের মাঝের ৫০% এর বিস্তার পরিমাপ করে। ওয়েটারের উদাহরণে, IQR = ৩২ - ২০ = ১২।
IQR পরিসরের (সর্বোচ্চ বিয়োগ সর্বনিম্ন) চেয়ে বিস্তারের একটি বেশি শক্তিশালী পরিমাপ কারণ এটি বহিঃস্থ মান দ্বারা প্রভাবিত হয় না। IQR বহিঃস্থ মান চিহ্নিত করতেও ব্যবহৃত হয়। একটি সাধারণ নিয়ম বলে Q1 - 1.5 * IQR এর নিচে বা Q3 + 1.5 * IQR এর উপরে যেকোনো মান সম্ভাব্য বহিঃস্থ মান।
বক্স প্লট পড়া
একটি বক্স প্লট (বক্স-অ্যান্ড-হুইস্কার প্লটও বলা হয়) হলো পাঁচ-সংখ্যার সারসংক্ষেপের চাক্ষুষ উপস্থাপনা। বাক্সটি Q1 থেকে Q3 পর্যন্ত বিস্তৃত, মধ্যমা চিহ্নিত করে ভেতরে একটি রেখা থাকে। "হুইস্কার" বাক্স থেকে সবচেয়ে ছোট এবং বৃহত্তম অ-বহিঃস্থ মান পর্যন্ত বিস্তৃত। বহিঃস্থ মানগুলো হুইস্কারের বাইরে পৃথক বিন্দু হিসাবে দেখা যায়।
বক্স প্লট একাধিক গোষ্ঠী পাশাপাশি তুলনা করার জন্য বিশেষত উপযোগী।
উপরের বার চার্ট পাঁচ-সংখ্যার সারসংক্ষেপের মানগুলো বার হিসাবে উপস্থাপন করে। Q3 এবং সর্বোচ্চের মধ্যে ব্যবধান লক্ষ্য করুন -- এই অসমতা পরামর্শ দেয় যে তথ্য ডান দিকে হেলানো, উচ্চ মানের দিকে একটি লম্বা লেজ সহ।
বক্স প্লট আকৃতি সম্পর্কে কী প্রকাশ করে
বক্স প্লট আপনাকে একটি বন্টনের হেলানো সম্পর্কে বলতে পারে। মধ্যমা রেখা বাক্সের কেন্দ্রে এবং হুইস্কার মোটামুটি সমান দৈর্ঘ্যের হলে, তথ্য প্রতিসম। মধ্যমা Q1 এর কাছে এবং উপরের হুইস্কার দীর্ঘ হলে, তথ্য ডান দিকে হেলানো। মধ্যমা Q3 এর কাছে এবং নিচের হুইস্কার দীর্ঘ হলে, তথ্য বাম দিকে হেলানো।
বক্স প্লট হিস্টোগ্রামের তুলনায় কিছু বিস্তারিত তথ্য ত্যাগ করে -- আপনি বন্টনের সঠিক আকৃতি বা একাধিক শীর্ষবিন্দু দেখতে পারেন না। তবে তারা সংক্ষিপ্ত তুলনা এবং বহিঃস্থ মান সনাক্তকরণে দুর্দান্ত, যে কারণে তারা অনুসন্ধানমূলক তথ্য বিশ্লেষণের একটি মূল হাতিয়ার।
শতমক বাকি তথ্যের তুলনায় মানগুলোর স্থান নির্ধারণ করে, চতুর্থক (Q1, মধ্যমা, Q3) সবচেয়ে গুরুত্বপূর্ণ মাইলফলক। পাঁচ-সংখ্যার সারসংক্ষেপ এবং IQR যেকোনো তথ্যসেটের একটি সংক্ষিপ্ত, বহিঃস্থ-মান-প্রতিরোধী স্ন্যাপশট প্রদান করে। বক্স প্লট এই সারসংক্ষেপকে একটি চিত্রে পরিণত করে যা এক নজরে কেন্দ্র, বিস্তার, হেলানো এবং বহিঃস্থ মান প্রকাশ করে -- একাধিক গোষ্ঠীর দ্রুত তুলনার জন্য আদর্শ।