A/B ሙከራ

ደረጃ: መካከለኛ የማንበቢያ ጊዜ: 12 ደቂቃዎች

በጣም ቀላሉ ሙከራ

A/B ሙከራ ከቀላል እና ኃይለኛ የሙከራ ዓይነቶች አንዱ ነው። ሁለት ስሪቶችን ይወስዳሉ፣ ስሪት A ለአንድ ቡድን ሰዎች ስሪት B ለሌላ ያሳያሉ እና የትኛው ይሻላል ይለካሉ። የቴክ ኩባንያዎች ከአዝራር ቀለሞች ወደ ዋጋ ገጾች ወደ ሙሉ ምርት ባህሪያት ሁሉንም ለማሻሻል A/B ሙከራዎችን ይጠቀማሉ። ግን ተመሳሳይ ሎጂክ በሕክምና (መድኃኒት ከ placebo)፣ ትምህርት (ማስተማሪያ ዘዴ A ከ B) እና ግብይት (የኢሜይል ርዕስ A ከ B) ይሰራል።

የ A/B ሙከራ ኃይል ከዘፈቀደ ምደባ ይመጣል። ሰዎችን በዘፈቀደ ወደ ቡድን A ወይም ቡድን B በመመደብ የግራ ጥያቄ ተለዋዋጮችን ተጽዕኖ ያስወግዳሉ። በቡድኖች መካከል ያለ ማንኛውም የውጤት ልዩነት ላደረጉት ለውጥ ሊገለጽ ይችላል፣ በሰዎች መካከል ላሉ ቀድሞ ለነበሩ ልዩነቶች ሳይሆን። ይህ ተመሳሳይ መርህ በሕክምና ውስጥ የወርቅ ደረጃ ማስረጃ ተደርገው ከሚቆጠሩ ዘፈቀደ ቁጥጥር ሙከራዎች ጀርባ ያለ ነው።

ሙከራውን መንደፍ

ጥሩ A/B ሙከራ ግልጽ ግምት እና ነጠላ ሊለካ የሚችል ልኬት ይጀምራል። "የምዝገባ አዝራሩን ከአረንጓዴ ወደ ሰማያዊ መቀየር click-through rate ያሳድጋል ብለን እናምናለን።" ልኬቱ click-through rate ነው። ቁጥጥሩ (A) አረንጓዴ አዝራሩ ነው። ህክምናው (B) ሰማያዊ አዝራሩ ነው። ሌላ ሁሉ በትክክል ተመሳሳይ ይቆያል።

ይህ "አንድ ነገር ይቀይሩ" መርህ ወሳኝ ነው። የአዝራሩን ቀለም፣ ጽሑፉን እና የገጹን አቀማመጥ በአንድ ጊዜ ከቀየሩ እና ቁጥሮች ከወጡ ምን ለውጥ መሻሻሉን እንዳመጣ አያውቁም። ብዙ ለውጦችን በአንድ ጊዜ ለመፈተሽ multivariate ሙከራ ይኖራል፣ ግን ያ በጣም ትልቅ ናሙናዎች እና ይበልጥ ውስብስብ ትንታኔ ይፈልጋል።

እንዲሁም ሙከራው ምን ያህል ጊዜ እንደሚካሄድ አስቀድመው መወሰን ያስፈልግዎታል። ይህ በናሙና መጠን ስሌትዎ ላይ ይወሰናል፣ ይህም አሁን ያለዎን መነሻ conversion rate፣ ዝቅተኛውን ሊታወቅ የሚችል ውጤት (ሊያስቡበት የሚፈልጉት ትንሹ መሻሻል) እና የሚፈለገውን confidence level ያካትታል። ያለ ቅድመ-ተወስኖ ናሙና መጠን ሙከራ ማካሄድ በ A/B ሙከራ ውስጥ ከብዙ ጊዜ ከሚደረጉ ስህተቶች አንዱ ነው።

ናሙና መጠን - ለምን ይህን ያህል አስፈላጊ ነው

ናሙና መጠን የሙከራዎን ስታቲስቲካዊ ኃይል ይወስናል - ይህም ትክክለኛ ውጤት ሲኖር ለማግኘት ያለው ችሎታ ነው። ጎብኚዎች በጣም ጥቂት ከሆኑ ውጤቶቹ ለመደምደም በጣም ጫጫታ ስለሆኑ ትክክለኛ መሻሻልን ሊያጡ ይችላሉ። ከመጠን በላይ ከሆኑ ሙከራውን ከሚያስፈልገው በላይ በማካሄድ ጊዜ እና ሀብቶችን ያባክናሉ።

3.2 Control (A) 3.8 Variant (B)

አሁን ያለዎ conversion rate 3.2% ነው እና ቢያንስ 0.5 በመቶ ነጥብ መሻሻል ለማግኘት ይፈልጋሉ እንበል። በ confidence level እና ኃይል መስፈርቶችዎ ላይ በመመርኮዝ በቡድን 15,000 እስከ 30,000 ጎብኚዎች ሊያስፈልግዎ ይችላል። በቡድን 1,000 ጎብኚዎች ብቻ ካሉዎ ሙከራው ኃይሉ ዝቅተኛ ይሆናል እና አዲሱ ስሪት በእውነት ቢሻልም እንኳ ምናልባት ግልጽ ያልሆነ ውጤት ያገኛሉ።

Control (A) 2.8 3.6
Variant (B) 3.3 4.3

ከላይ ያሉት confidence intervals ለእያንዳንዱ ቡድን የተገመቱ conversion rates ያሳያሉ። ትንሽ እንደሚደራረቡ ልብ ይበሉ። ይህ ልዩነት ስታቲስቲካዊ ጉልህ መሆን አለመሆኑ በትክክለኛው ናሙና መጠን እና በመደራረብ ደረጃ ላይ ይወሰናል። Confidence intervals በጭራሽ ሲደራረቡ ወይም ባልተደራረቡ ጊዜ ልዩነቱ ትክክለኛ መሆኑን የሚያሳይ ጠንካራ ማስረጃ አለዎት።

በ A/B ሙከራዎች ውስጥ ስታቲስቲካዊ ጉልህነት

በቂ ዳታ ከሰበሰቡ በኋላ በቡድኖች መካከል ያለው ልዩነት ስታቲስቲካዊ ጉልህ መሆን አለመሆኑን ለመወሰን ስታቲስቲካዊ ሙከራ (ብዙ ጊዜ two-proportion z-test ወይም chi-square test) ያካሂዳሉ። ውጤቱ p-value ነው። p-value ከድፍዎ (ብዙ ጊዜ 0.05) በታች ከሆነ ልዩነቱ በአጋጣሚ ብቻ ሊሆን አይችልም ብለው ይደመድማሉ።

ነገር ግን ጉልህነት ሙሉ ታሪኩን አይነግርም። 0.02 በመቶ ነጥብ ስታቲስቲካዊ ጉልህ መሻሻል በስታቲስቲካዊ አነጋገር ትክክለኛ ነው ግን ምናልባት ለመተግበር የኢንጂነሪንግ ጥረቱን አይገባም። ሁልጊዜ የጉልህነት ሙከራዎን ከትክክለኛው የውጤት መጠን ጋር ያጣምሩ። 0.5 በመቶ ነጥብ የ conversion ጭማሪ ትርጉም ያለው ገቢ ይሆናል? ያ በንግድ ሁኔታዎ ላይ ይወሰናል።

አንዳንድ ቡድኖች ከ frequentist p-values ይልቅ Bayesian አቀራረቦችን ይጠቀማሉ። Bayesian A/B ሙከራ ቀጥታ ዕድል ማረጋገጫ ይሰጥዎታል - "ተለዋጭ B ከተለዋጭ A ይሻላል የሚል 94% ዕድል አለ።" ብዙ ባለሙያዎች ትንሽ የተለየ ጥያቄ ከሚመልሰው መደበኛ p-value ይልቅ ይህን ይበልጥ ግልጽ ሆኖ ያገኙታል።

የተለመዱ ወጥመዶች

ውጤቶችን በጣም ቀድሞ መመልከት። ይህ ከብዙ ጊዜ የሚደረጉ እና ከፍተኛ ጉዳት ከሚያስከትሉ ስህተቶች ውስጥ ነው። ውጤቶችዎን በየቀኑ ካዩ እና ጉልህነት ሲያዩ ሙከራውን ካቆሙ የውሸት ፖዚቲቭ ደረጃዎን በእጅጉ ያሳድጋሉ። ስታቲስቲካዊ ሙከራዎች አንድ ጊዜ በቅድመ-ተወስኖ ናሙና መጠን ለመገምገም ነው የተነደፉት። ውጤቶችን ሲመጡ መከታተል ካለብዎ ተደጋጋሚ ማየትን ግምት ውስጥ የሚያስገቡ sequential testing ዘዴዎችን ይጠቀሙ።

ብዙ ተለዋጮችን ማሄድ። አምስት ስሪቶችን በአንድ ጊዜ (A/B/C/D/E) መፈተሽ ቀልጣፋ ይመስላል ግን የውሸት ፖዚቲቭ ዕድሎችን ያባዛል። አምስት ተለዋጮች እና 5% ጉልህነት ድፍ ሲኖር ቢያንስ አንድ የውሸት ፖዚቲቭ የማግኘት ዕድል ወደ 19% ይሆናል። ለብዙ ንጽጽሮች ማስተካከያ ማድረግ ወይም ትልቅ ናሙናዎችን ማካሄድ ያስፈልግዎታል።

ምሳሌ

SaaS ኩባንያ በዋጋ ገጻቸው ላይ A/B ሙከራ ያካሂዳል። ከሶስት ቀናት በኋላ ምርት ሥራ አስኪያጁ ያየና ተለዋጭ B 15% ከፍ ያለ conversion rate p-value 0.03 ያለው ሆኖ ያገኛል። በደስታ ሙከራውን ያቆማሉና ተለዋጭ B ያወጣሉ። ከሁለት ሳምንት በኋላ conversions በእውነቱ እንዳልተሻሻሉ ይገነዘባሉ። ምን ሆነ? ቅድመ ማየቱ ዘፈቀደ ተለዋዋጭነትን ያዘ። በቡድን 10,000 ጎብኚዎች ሙሉ ታቅዶ ናሙና መጠን ቢጠብቁ ኖሮ ውጤቱ ወደ 2% ይቀንሰና ጉልህ አይሆንም ነበር።

ክፍሎችን ችላ ማለት። A/B ሙከራ በአጠቃላይ ልዩነት ላያሳይ ይችላል፣ ግን ተለዋጭ B ለሞባይል ተጠቃሚዎች በጣም ሲሻል ለዴስክቶፕ ተጠቃሚዎች ሊባባስ ይችላል። እነዚህ ውጤቶች በአጠቃላይ ይሰረዛሉ። የክፍል ትንታኔ ጠቃሚ ግንዛቤዎችን ሊያሳይ ይችላል ግን ተጠንቀቁ - ብዙ ክፍሎችን መፈተሽ እንዲሁ የውሸት ፖዚቲቭ አደጋን ያሳድጋል።

በቂ ትራፊክ ሳይኖር መፈተሽ። ዝቅተኛ ትራፊክ ያላቸው ትንሽ ድረ-ገጾች ወይም ምርቶች ብዙ ጊዜ በምክንያታዊ ጊዜ ውስጥ ያስፈልጉትን ናሙና መጠኖች ማድረስ አይችሉም። ሙከራ ለሶስት ወራት ማካሄድ ወቅታዊ ውጤቶችን እና ሌሎች የሚያደናግሩ ነገሮችን ያስተዋውቃል። ትራፊክዎ ሊያገኙት ለሚፈልጉት ውጤት በጣም ዝቅተኛ ከሆነ ትልቅ ለውጥ መፈተሽ (ለማግኘት ያነሱ ናሙናዎች የሚፈልግ) ወይም በምትኩ qualitative ዘዴዎችን መጠቀም ያስቡ።

ዋና ነጥብ

A/B ሙከራ የትኛው ይሻላል ለማግኘት ሁለት ስሪቶችን የሚያነፃፅር ዘፈቀደ ሙከራ ነው። ጥሩ ሙከራዎች ግልጽ ግምት፣ ነጠላ ዋና ልኬት፣ ቅድመ-የተሰላ ናሙና መጠን እና ድምዳሜ ከመስጠት በፊት ሙሉ ውጤቶችን ለመጠበቅ ትዕግስት ይፈልጋሉ። ትልቁ ወጥመዶች ውጤቶችን በጣም ቀድሞ ማየት፣ ያለ ማስተካከያ ብዙ ተለዋጮችን ማሄድ እና ስታቲስቲካዊ ጉልህነትን ከተግባራዊ ጠቀሜታ ጋር ማደናገር ናቸው። በትክክል ከተደረገ A/B ሙከራ ከግምት ይልቅ ምክንያታዊ ማስረጃ ይሰጥዎታል።