A/B testing compares two versions of something (like a webpage) by randomly splitting users into groups to see which version performs better.

How long should an A/B test run?

Run it until you reach statistical significance, typically 1-4 weeks. Stopping too early can lead to false conclusions.

What sample size do I need for an A/B test?

It depends on your baseline rate and the minimum effect you want to detect. Online calculators can help - typically thousands per variant.

What is statistical significance in A/B testing?

It means the observed difference between variants is unlikely due to random chance alone, usually set at a 95% confidence threshold.

What are common A/B testing mistakes?

Stopping tests too early, testing too many variants at once, ignoring sample size requirements, and not accounting for seasonal changes.

A/B ٹیسٹنگ

سب سے سادہ تجربہ

A/B ٹیسٹ تجربے کی سب سے سادہ اور طاقتور شکلوں میں سے ایک ہے۔ آپ کسی چیز کے دو ورژن لیتے ہیں، ورژن A ایک گروپ کو دکھاتے ہیں اور ورژن B دوسرے گروپ کو، اور پھر ناپتے ہیں کہ کون سا بہتر کارکردگی دکھاتا ہے۔ ٹیکنالوجی کمپنیاں A/B ٹیسٹس کا استعمال بٹن کے رنگوں سے لے کر قیمتوں کے صفحات تک ہر چیز کو بہتر بنانے کے لیے کرتی ہیں۔ لیکن یہی منطق طب (دوا بمقابلہ پلیسبو)، تعلیم (طریقہ A بمقابلہ B)، اور مارکیٹنگ (ای میل سبجیکٹ لائن A بمقابلہ B) میں بھی لاگو ہوتی ہے۔

A/B ٹیسٹنگ کی طاقت رینڈمائزیشن سے آتی ہے۔ لوگوں کو بے ترتیب طور پر گروپ A یا گروپ B میں تقسیم کر کے، آپ مداخلت کرنے والے متغیرات کے اثر کو ختم کر دیتے ہیں۔ گروپوں کے درمیان نتائج میں کوئی بھی فرق آپ کی کی گئی تبدیلی سے منسوب کیا جا سکتا ہے، نہ کہ لوگوں کے درمیان پہلے سے موجود فرق سے۔

تجربے کی ڈیزائننگ

ایک اچھا A/B ٹیسٹ واضح مفروضے اور ایک قابل پیمائش میٹرک سے شروع ہوتا ہے۔ "ہمیں یقین ہے کہ سائن اپ بٹن کو سبز سے نیلے میں تبدیل کرنے سے کلک تھرو ریٹ بڑھے گا۔" میٹرک کلک تھرو ریٹ ہے۔ کنٹرول (A) سبز بٹن ہے۔ ٹریٹمنٹ (B) نیلا بٹن ہے۔ باقی سب کچھ بالکل ویسا ہی رہتا ہے۔

"ایک وقت میں ایک چیز بدلیں" کا اصول بہت اہم ہے۔ اگر آپ بٹن کا رنگ، متن، اور صفحے کی ترتیب سب ایک ساتھ بدل دیں، اور تبادلے بڑھ جائیں، تو آپ کو نہیں معلوم کہ کس تبدیلی نے بہتری لائی۔

آپ کو پیشگی فیصلہ کرنا ہوگا کہ ٹیسٹ کتنی دیر چلے گا۔ یہ آپ کے نمونے کے سائز کے حساب پر منحصر ہے، جو آپ کی موجودہ بنیادی تبادلے کی شرح، کم از کم قابل شناخت اثر، اور آپ کی مطلوبہ اعتماد کی سطح کو مدنظر رکھتا ہے۔

نمونے کا سائز: یہ اتنا اہم کیوں ہے

نمونے کا سائز آپ کے ٹیسٹ کی شماریاتی طاقت کا تعین کرتا ہے - یعنی حقیقی اثر موجود ہونے پر اسے پہچاننے کی صلاحیت۔ بہت کم وزٹرز کے ساتھ، آپ حقیقی بہتری سے محروم رہ سکتے ہیں کیونکہ نتائج بہت شور والے ہوتے ہیں۔ بہت زیادہ کے ساتھ، آپ ضرورت سے زیادہ وقت ضائع کرتے ہیں۔

فرض کریں آپ کی موجودہ تبادلے کی شرح 3.2% ہے اور آپ کم از کم 0.5 فیصد پوائنٹ کی بہتری پہچاننا چاہتے ہیں۔ آپ کی اعتماد کی سطح اور طاقت کی ضروریات کے لحاظ سے، آپ کو فی گروپ 15,000 سے 30,000 وزٹرز کی ضرورت ہو سکتی ہے۔

اوپر اعتماد کے وقفے ہر گروپ کے لیے تخمینی تبادلے کی شرح دکھاتے ہیں۔ دھیان دیں کہ وہ تھوڑا اوورلیپ کرتے ہیں۔ یہ فرق شماریاتی طور پر اہم ہے یا نہیں، یہ نمونے کے سائز اور اوورلیپ کی مقدار پر منحصر ہے۔

A/B ٹیسٹس میں شماریاتی اہمیت

کافی ڈیٹا جمع کرنے کے بعد، آپ شماریاتی ٹیسٹ چلاتے ہیں (عام طور پر دو تناسب z-ٹیسٹ یا کائی اسکوائر ٹیسٹ) تاکہ معلوم ہو کہ گروپوں کے درمیان فرق شماریاتی طور پر اہم ہے یا نہیں۔ نتیجہ p-ویلیو ہے۔ اگر p-ویلیو آپ کی حد (عام طور پر 0.05) سے کم ہے، تو آپ نتیجہ نکالتے ہیں کہ فرق محض اتفاق کی وجہ سے ہونے کا امکان نہیں۔

لیکن اہمیت پوری کہانی نہیں بتاتی۔ 0.02 فیصد پوائنٹ کی شماریاتی طور پر اہم بہتری شماریاتی معنوں میں حقیقی ہے لیکن شاید عملی درآمد کی محنت کے قابل نہیں۔ ہمیشہ اپنے اہمیت کے ٹیسٹ کو اصل اثر کے سائز کے ساتھ جوڑیں۔

کچھ ٹیمیں فریکوینٹسٹ p-ویلیوز کی بجائے بیزین طریقے استعمال کرتی ہیں۔ بیزین A/B ٹیسٹنگ آپ کو براہ راست امکان کا بیان دیتی ہے: "94% امکان ہے کہ ویرینٹ B، ویرینٹ A سے بہتر ہے۔"

عام غلطیاں

نتائج کو بہت جلدی دیکھنا۔ یہ سب سے عام اور سب سے نقصان دہ غلطی ہے۔ اگر آپ ہر روز نتائج چیک کرتے ہیں اور پہلی بار اہمیت نظر آتے ہی ٹیسٹ روک دیتے ہیں، تو آپ اپنی غلط مثبت شرح کو ڈرامائی طور پر بڑھا دیں گے۔

بہت زیادہ ویرینٹس چلانا۔ پانچ ورژن ایک ساتھ ٹیسٹ کرنا (A/B/C/D/E) مؤثر لگتا ہے، لیکن یہ غلط مثبت کے امکانات کو بڑھا دیتا ہے۔ پانچ ویرینٹس اور 5% اہمیت کی حد کے ساتھ، آپ کے پاس کم از کم ایک غلط مثبت کا تقریبا 19% امکان ہے۔

مثال

ایک SaaS کمپنی اپنے قیمتوں کے صفحے پر A/B ٹیسٹ چلاتی ہے۔ تین دن بعد، پروڈکٹ مینیجر چیک کرتا ہے اور دیکھتا ہے کہ ویرینٹ B میں 15% زیادہ تبادلے کی شرح ہے جس کی p-ویلیو 0.03 ہے۔ خوش ہو کر، وہ ٹیسٹ روک دیتے ہیں اور ویرینٹ B لاگو کر دیتے ہیں۔ دو ہفتے بعد، انہیں احساس ہوتا ہے کہ تبادلے اصل میں بہتر نہیں ہوئے۔ کیا ہوا؟ جلدی دیکھنے سے ایک بے ترتیب اتار چڑھاؤ پکڑا گیا۔

سیگمنٹس کو نظرانداز کرنا۔ A/B ٹیسٹ مجموعی طور پر کوئی فرق نہیں دکھا سکتا، لیکن ویرینٹ B موبائل صارفین کے لیے بہت بہتر اور ڈیسک ٹاپ صارفین کے لیے بدتر کارکردگی دکھا سکتا ہے۔

کافی ٹریفک کے بغیر ٹیسٹنگ۔ کم ٹریفک والی ویب سائٹس معقول وقت میں مطلوبہ نمونے کے سائز تک نہیں پہنچ سکتیں۔ تین ماہ تک ٹیسٹ چلانے سے موسمی اثرات اور دیگر مداخلت کرنے والے عوامل شامل ہو جاتے ہیں۔

اہم نکتہ

A/B ٹیسٹنگ ایک رینڈمائزڈ تجربہ ہے جو دو ورژنز کا موازنہ کرتا ہے تاکہ معلوم ہو کون سا بہتر کارکردگی دکھاتا ہے۔ اچھے ٹیسٹس کے لیے واضح مفروضہ، ایک کلیدی میٹرک، پیشگی حساب شدہ نمونے کا سائز، اور مکمل نتائج کا انتظار کرنے کا نظم ضروری ہے۔ سب سے بڑی غلطیاں نتائج کو بہت جلدی دیکھنا، اصلاح کے بغیر بہت زیادہ ویرینٹس ٹیسٹ کرنا، اور شماریاتی اہمیت کو عملی اہمیت سے الجھانا ہیں۔