A/B পরীক্ষা

কঠিনতা: মধ্যবর্তী পড়ার সময়: 12 মিনিট

সবচেয়ে সরল পরীক্ষা

A/B পরীক্ষা হলো পরীক্ষা-নিরীক্ষার সবচেয়ে সরল ও শক্তিশালী রূপগুলোর একটি। আপনি কোনো কিছুর দুটি সংস্করণ নেন, সংস্করণ A একটি দলকে এবং সংস্করণ B আরেকটি দলকে দেখান, এবং কোনটি ভালো পারফর্ম করে তা পরিমাপ করেন। প্রযুক্তি কোম্পানিগুলো বোতামের রঙ থেকে মূল্য পৃষ্ঠা থেকে সম্পূর্ণ পণ্য বৈশিষ্ট্য পর্যন্ত সবকিছু অপটিমাইজ করতে A/B পরীক্ষা ব্যবহার করে। কিন্তু একই যুক্তি চিকিৎসায় (ওষুধ বনাম প্লেসিবো), শিক্ষায় (শিক্ষণ পদ্ধতি A বনাম B), এবং বিপণনে (ইমেইল বিষয়লাইন A বনাম B) প্রযোজ্য।

A/B পরীক্ষার শক্তি আসে এলোমেলোকরণ থেকে। মানুষকে এলোমেলোভাবে দল A বা দল B-তে বরাদ্দ করে, আপনি বিভ্রান্তিকর চলকের প্রভাব দূর করেন। গোষ্ঠীগুলোর মধ্যে ফলাফলের যেকোনো পার্থক্য আপনার করা পরিবর্তনকেই দায়ী করা যায়, মানুষদের মধ্যে পূর্ব-বিদ্যমান পার্থক্যকে নয়।

পরীক্ষার নকশা

একটি ভালো A/B পরীক্ষা শুরু হয় একটি স্পষ্ট প্রকল্পনা এবং একটি একক পরিমাপযোগ্য মেট্রিক দিয়ে। "আমরা বিশ্বাস করি সাইন-আপ বোতামের রঙ সবুজ থেকে নীলে পরিবর্তন করলে ক্লিক-থ্রু রেট বাড়বে।" মেট্রিক হলো ক্লিক-থ্রু রেট। নিয়ন্ত্রণ (A) হলো সবুজ বোতাম। পরিবর্তন (B) হলো নীল বোতাম। বাকি সবকিছু হুবহু একই থাকে।

এই "একটি জিনিস পরিবর্তন করুন" নীতি অত্যন্ত গুরুত্বপূর্ণ। আপনি যদি একসাথে বোতামের রঙ, পাঠ্য এবং পৃষ্ঠার বিন্যাস পরিবর্তন করেন এবং রূপান্তর বাড়ে, কোন পরিবর্তন উন্নতি ঘটিয়েছে তা আপনি জানেন না।

আপনাকে আগে থেকে ঠিক করতে হবে পরীক্ষা কতদিন চলবে। এটি আপনার নমুনার আকার গণনার উপর নির্ভর করে, যা বর্তমান বেসলাইন রূপান্তর হার, সর্বনিম্ন সনাক্তযোগ্য প্রভাব (আপনি যে সবচেয়ে ছোট উন্নতি গুরুত্ব দেন) এবং কাঙ্ক্ষিত আত্মবিশ্বাস স্তর বিবেচনা করে।

নমুনার আকার: কেন এত গুরুত্বপূর্ণ

নমুনার আকার আপনার পরীক্ষার পরিসংখ্যানগত শক্তি নির্ধারণ করে, যা একটি প্রকৃত প্রভাব থাকলে তা সনাক্ত করার ক্ষমতা। খুব কম দর্শক হলে, আপনি একটি প্রকৃত উন্নতি মিস করতে পারেন কারণ ফলাফল সিদ্ধান্তমূলক হওয়ার জন্য খুব গোলমালপূর্ণ।

3.2 নিয়ন্ত্রণ (A) 3.8 বৈকল্পিক (B)

ধরুন আপনার বর্তমান রূপান্তর হার ৩.২% এবং আপনি কমপক্ষে ০.৫ শতাংশ পয়েন্ট উন্নতি সনাক্ত করতে চান। আপনার আত্মবিশ্বাস স্তর এবং শক্তির প্রয়োজনীয়তার উপর নির্ভর করে, প্রতি গোষ্ঠীতে ১৫,০০০ থেকে ৩০,০০০ দর্শক প্রয়োজন হতে পারে। প্রতি গোষ্ঠীতে মাত্র ১,০০০ দর্শক থাকলে, পরীক্ষাটি কম শক্তিসম্পন্ন হবে এবং নতুন সংস্করণ সত্যিই ভালো হলেও সম্ভবত অনিশ্চিত ফলাফল পাবেন।

নিয়ন্ত্রণ (A) 2.8 3.6
বৈকল্পিক (B) 3.3 4.3

উপরের আত্মবিশ্বাস ব্যবধান প্রতিটি গোষ্ঠীর আনুমানিক রূপান্তর হার দেখায়। লক্ষ্য করুন সেগুলো সামান্য ওভারল্যাপ করছে। এই পার্থক্য পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ কিনা তা সুনির্দিষ্ট নমুনার আকার এবং ওভারল্যাপের মাত্রার উপর নির্ভর করে।

A/B পরীক্ষায় পরিসংখ্যানগত তাৎপর্য

যথেষ্ট তথ্য সংগ্রহের পর, আপনি একটি পরিসংখ্যানগত পরীক্ষা চালান (সাধারণত দুই-অনুপাত z-পরীক্ষা বা কাই-বর্গ পরীক্ষা) গোষ্ঠীগুলোর মধ্যে পার্থক্য পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ কিনা তা নির্ধারণ করতে। p-মান আপনার থ্রেশহোল্ডের (সাধারণত ০.০৫) নিচে হলে, আপনি সিদ্ধান্ত নেন পার্থক্যটি শুধু দৈবের কারণে হওয়ার সম্ভাবনা কম।

কিন্তু তাৎপর্য পুরো গল্প বলে না। ০.০২ শতাংশ পয়েন্টের পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ উন্নতি পরিসংখ্যানগত অর্থে বাস্তব কিন্তু সম্ভবত বাস্তবায়নের ইঞ্জিনিয়ারিং প্রচেষ্টার যোগ্য নয়। সবসময় আপনার তাৎপর্য পরীক্ষার সাথে প্রকৃত প্রভাবের আকার দেখুন।

কিছু দল ফ্রিকোয়েন্টিস্ট p-মানের বদলে বেসীয় পদ্ধতি ব্যবহার করে। বেসীয় A/B পরীক্ষা আপনাকে একটি সরাসরি সম্ভাবনার বিবৃতি দেয়: "৯৪% সম্ভাবনা আছে যে বৈকল্পিক B বৈকল্পিক A-র চেয়ে ভালো।" অনেক অনুশীলনকারী এটি মানক p-মানের চেয়ে বেশি স্বজ্ঞাত মনে করেন।

সাধারণ সমস্যা

খুব তাড়াতাড়ি ফলাফল দেখা। এটি সবচেয়ে সাধারণ এবং ক্ষতিকর ভুল। প্রতিদিন ফলাফল পরীক্ষা করে প্রথমবার তাৎপর্য দেখতে পেলেই পরীক্ষা বন্ধ করলে, আপনার ভুল ইতিবাচক হার নাটকীয়ভাবে বাড়বে। পরিসংখ্যানগত পরীক্ষা একটি পূর্বনির্ধারিত নমুনার আকারে একবার মূল্যায়নের জন্য ডিজাইন করা।

অনেক বৈকল্পিক চালানো। একসাথে পাঁচটি সংস্করণ পরীক্ষা করলে (A/B/C/D/E) ভুল ইতিবাচকের সম্ভাবনা বহুগুণ বাড়ে। পাঁচটি বৈকল্পিক এবং ৫% তাৎপর্য থ্রেশহোল্ডে, কমপক্ষে একটি ভুল ইতিবাচকের প্রায় ১৯% সম্ভাবনা থাকে।

উদাহরণ

একটি SaaS কোম্পানি তাদের মূল্য পৃষ্ঠায় A/B পরীক্ষা চালায়। তিন দিন পর, প্রোডাক্ট ম্যানেজার দেখেন বৈকল্পিক B-তে ১৫% বেশি রূপান্তর হার এবং p-মান ০.০৩। উত্তেজিত হয়ে তারা পরীক্ষা বন্ধ করে বৈকল্পিক B চালু করেন। দুই সপ্তাহ পরে তারা বুঝতে পারেন রূপান্তর আসলে উন্নত হয়নি। কী হলো? তাড়াতাড়ি দেখা একটি দৈব ওঠানামা ধরেছিল। পরিকল্পিত পূর্ণ নমুনার আকার প্রতি গোষ্ঠীতে ১০,০০০ দর্শক পর্যন্ত অপেক্ষা করলে, প্রভাব ২% এ কমে যেত এবং তাৎপর্যপূর্ণ হতো না।

সেগমেন্ট উপেক্ষা করা। একটি A/B পরীক্ষা সামগ্রিকভাবে কোনো পার্থক্য না দেখাতে পারে, কিন্তু বৈকল্পিক B মোবাইল ব্যবহারকারীদের জন্য অনেক ভালো পারফর্ম করতে পারে আর ডেস্কটপ ব্যবহারকারীদের জন্য খারাপ। এই প্রভাবগুলো সমষ্টিতে একে অপরকে বাতিল করে।

যথেষ্ট ট্রাফিক ছাড়া পরীক্ষা করা। কম ট্রাফিকের ওয়েবসাইট বা পণ্য প্রায়ই যুক্তিসংগত সময়সীমার মধ্যে প্রয়োজনীয় নমুনার আকারে পৌঁছাতে পারে না। আপনার ট্রাফিক যে প্রভাব সনাক্ত করতে চান তার জন্য খুব কম হলে, একটি বড় পরিবর্তন পরীক্ষা করুন (যা সনাক্ত করতে কম নমুনা লাগে) অথবা গুণগত পদ্ধতি ব্যবহার করুন।

মূল শিক্ষা

A/B পরীক্ষা একটি এলোমেলোকৃত পরীক্ষা যা দুটি সংস্করণের তুলনা করে কোনটি ভালো পারফর্ম করে তা খুঁজতে। ভালো পরীক্ষার জন্য প্রয়োজন একটি স্পষ্ট প্রকল্পনা, একটি একক মূল মেট্রিক, পূর্ব-গণনাকৃত নমুনার আকার এবং সিদ্ধান্ত নেওয়ার আগে পূর্ণ ফলাফলের জন্য অপেক্ষা করার শৃঙ্খলা। সবচেয়ে বড় সমস্যাগুলো হলো খুব তাড়াতাড়ি ফলাফল দেখা, সংশোধন ছাড়া অনেক বৈকল্পিক পরীক্ষা করা এবং পরিসংখ্যানগত তাৎপর্যকে ব্যবহারিক গুরুত্বের সাথে গুলিয়ে ফেলা। সঠিকভাবে করলে, A/B পরীক্ষা অনুমানের বদলে কার্যকারণমূলক প্রমাণ দেয়।