লজিস্টিক রিগ্রেশন

কঠিনতা: উন্নত পড়ার সময়: 15 মিনিট

যখন ফলাফল হ্যাঁ বা না

লিনিয়ার রিগ্রেশন চমৎকারভাবে কাজ করে যখন আপনি একটি ধারাবাহিক সংখ্যা পূর্বাভাস করছেন, যেমন বাড়ির দাম, তাপমাত্রা বা পরীক্ষার নম্বর। কিন্তু যখন আপনি যা পূর্বাভাস করতে চান তার মাত্র দুটি সম্ভাব্য ফলাফল থাকে? গ্রাহক কিনবে নাকি কিনবে না? রোগী সুস্থ হবে নাকি হবে না? ইমেইলটি স্প্যাম নাকি স্প্যাম নয়? এই বাইনারি ফলাফলের জন্য, লিনিয়ার রিগ্রেশন ভেঙে পড়ে এবং লজিস্টিক রিগ্রেশন এগিয়ে আসে।

বাইনারি ফলাফলের জন্য লিনিয়ার রিগ্রেশন ব্যবহারের মূল সমস্যা হলো এটি ০ এর নিচে বা ১ এর উপরে পূর্বাভাস তৈরি করতে পারে, যা সম্ভাবনা হিসাবে অর্থহীন।

সিগময়েড বক্ররেখা

সরলরেখা মানানোর বদলে, লজিস্টিক রিগ্রেশন একটি S-আকৃতির বক্ররেখা মানায় যাকে সিগময়েড (বা লজিস্টিক) ফাংশন বলে। এই বক্ররেখা বামে ০ এর কাছে শুরু হয়, মাঝখানে ০.৫ দিয়ে ওঠে এবং ডানে ১ এর কাছে পৌঁছায়, কিন্তু কখনো সত্যিই ০ বা ১ এ পৌঁছায় না। এর মানে পূর্বাভাসিত মান সবসময় বৈধ সম্ভাবনা, ০ এবং ১ এর মধ্যে।

5 10 15 0 0.2 0.4 0.6000000000000001 0.8 1

উপরের স্ক্যাটার প্লটে, কল্পনা করুন x-অক্ষ অভিজ্ঞতার বছর এবং y-অক্ষ কেউ সার্টিফিকেশন পরীক্ষায় পাস করেছে কিনা (১ = পাস, ০ = ফেল)। কাঁচা তথ্য একটি স্পষ্ট ধরণ দেখায়: বেশি অভিজ্ঞতা পাস করার সম্ভাবনা বাড়ায়।

অডস ও অডস অনুপাত বোঝা

লজিস্টিক রিগ্রেশন তার অভ্যন্তরীণ গণিতে সরাসরি সম্ভাবনা পূর্বাভাস করে না। তার বদলে, এটি অডস নিয়ে কাজ করে। একটি ঘটনার সম্ভাবনা ০.৮ হলে, অডস হলো ০.৮ / ০.২ = ৪। সহগ ব্যাখ্যাযোগ্য করতে, গবেষকরা সেগুলো অডস অনুপাতে রূপান্তরিত করেন। ২.৫ এর অডস অনুপাত মানে সেই চলকে এক-একক বৃদ্ধি ফলাফলের অডস ২.৫ গুণ করে।

উদাহরণ

একটি হাসপাতাল একটি লজিস্টিক রিগ্রেশন মডেল তৈরি করে ভবিষ্যদ্বাণী করতে যে একজন রোগী ৩০ দিনের মধ্যে পুনরায় ভর্তি হবে কিনা। মডেলটি দেখে যে প্রতিটি অতিরিক্ত দীর্ঘমেয়াদী রোগ পুনরায় ভর্তির অডস ১.৪ গুণ বাড়ায় (অডস অনুপাত = ১.৪)। ৩টি দীর্ঘমেয়াদী রোগ সহ একজন রোগীর পুনরায় ভর্তির অডস কোনো রোগ নেই এমন রোগীর তুলনায় মোটামুটি ১.৪ x ১.৪ x ১.৪ = ২.৭৪ গুণ।

কখন লিনিয়ারের বদলে লজিস্টিক রিগ্রেশন বাছাই করবেন

সিদ্ধান্তটি সোজা: আপনার ফলাফল চলক যদি বাইনারি (দুটি বিভাগ) হয়, লজিস্টিক রিগ্রেশন ব্যবহার করুন। ফলাফল ধারাবাহিক হলে, লিনিয়ার রিগ্রেশন ব্যবহার করুন। দুইয়ের বেশি বিভাগের ফলাফলের জন্য লজিস্টিক রিগ্রেশনের সম্প্রসারণ আছে।

20 30 40 50 60 70 0 0.2 0.4 0.6000000000000001 0.8 1

মডেল ব্যাখ্যা ও মূল্যায়ন

লিনিয়ার রিগ্রেশনের বিপরীতে, লজিস্টিক রিগ্রেশন ফিট পরিমাপে R-বর্গ ব্যবহার করে না। তার বদলে, আপনি মূল্যায়ন করেন এটি কতটা ভালোভাবে কেস শ্রেণীবদ্ধ করে। সাধারণ মেট্রিকে সঠিকতা, সংবেদনশীলতা, নির্দিষ্টতা এবং ROC বক্ররেখার নিচের ক্ষেত্রফল (AUC) অন্তর্ভুক্ত।

লজিস্টিক রিগ্রেশন ধরে নেয় ইনপুট চলক এবং ফলাফলের লগ-অডসের মধ্যে একটি রৈখিক সম্পর্ক আছে। উন্নত মেশিন লার্নিং পদ্ধতির তুলনায় এটি তুলনামূলকভাবে সরল, যা আসলে একটি শক্তি: ফলাফল ব্যাখ্যাযোগ্য এবং অডস অনুপাত অর্থবহ।

বাস্তব জগতে লজিস্টিক রিগ্রেশন

লজিস্টিক রিগ্রেশন সর্বত্র। ব্যাংক ঋণ অনুমোদনের সিদ্ধান্তে, ইমেইল প্রদানকারীরা স্প্যাম শ্রেণীবিভাগে, বিপণনকারীরা গ্রাহক চার্ন পূর্বাভাসে এবং চিকিৎসা গবেষকরা রোগের ঝুঁকি কারণ চিহ্নিতকরণে এটি ব্যবহার করেন।

মূল শিক্ষা

লজিস্টিক রিগ্রেশন বাইনারি ফলাফল পূর্বাভাসের মানক পদ্ধতি। এটি পূর্বাভাস ০ এবং ১ এর মধ্যে রাখতে সিগময়েড ফাংশন ব্যবহার করে এবং এর সহগ অডস অনুপাত হিসাবে ব্যাখ্যা করা হয়। আপনার ফলাফল হ্যাঁ/না, পাস/ফেল বা যেকোনো দুই-বিভাগের চলক হলে এটি ব্যবহার করুন। গণিতে লগ-অডস জড়িত থাকলেও, ব্যবহারিক ব্যাখ্যা স্পষ্ট: প্রতিটি পূর্বাভাসক ফলাফলের অডস একটি পরিমাপযোগ্য পরিমাণে বাড়ায় বা কমায়।