A/B Testing Example

Scenario: Suppose we have a website and want to test whether a new button color (Version B) performs better than the current one (Version A) in terms of click-through rate (CTR). Define Hypotheses: (H_0): The CTR of Version B ≤ the CTR of Version A. (H_1): The CTR of Version B > the CTR of Version A (one-tailed test). Group Assignment: Randomly assign 1,000 users to each version (A and B), and record the number of clicks....

November 18, 2024 · 1 min · 135 words · Marina

不同分布在A/B测试中的对比总结

1. 二项分布(Binomial Distribution) 特点 模型的是离散数据,如“点击/未点击”。 适合小样本、二元结果的情况。 可以直接用于显著性检验(如二项检验)。 适用场景 对于转化率等二元指标直接比较时使用。 当样本量不大且需要精确计算时。 优点 完全适合二元事件,理论模型和实际数据一致。 不需要依赖近似,结果精确。 缺点 计算复杂度较高,尤其在样本量很大时。 不适合连续数据。 2. 正态分布(Normal Distribution) 特点 用于近似大样本下的二项分布(中心极限定理)。 适用于连续指标或二元指标的近似分析。 适用场景 样本量较大(通常 (n \geq 30))。 关注均值的显著性差异,如点击率的均值比较。 优点 计算简单,快速。 适用于大样本场景,便于可视化和解释。 缺点 当样本量小或数据偏离正态分布时,可能不适用。 假设较强:需要数据接近正态分布。 3. t分布(t-Distribution) 特点 用于小样本的均值差异分析。 t分布的形状取决于自由度,样本量越小,尾部越厚。 适用场景 样本量小于30。 比较两组均值的显著性差异。 优点 适合样本量较小的数据。 不完全依赖正态分布假设,允许更宽松的分析。 缺点 随样本量减小,检验的统计效能降低。 仅适合均值分析,不适合离散数据。 4. 泊松分布(Poisson Distribution) 特点 模型的是稀疏事件的频率,如少量点击或购买。 数据是非负整数,适合罕见事件。 适用场景 点击/转化发生率低(例如点击率小于1%)。 事件总数未知,只关注单位时间或单位流量内的发生次数。 优点 更适合稀疏事件,不需要假设总样本量。 计算简单,尤其在极小概率事件下。 缺点 不适合高频事件。 不适用于二元(成功/失败)事件建模。 5. Beta分布(Beta Distribution) 特点 描述概率分布的不确定性。 常用于贝叶斯方法,作为点击率的先验或后验分布。 适用场景 需要基于历史数据引入先验知识。 使用贝叶斯推断的A/B测试。 优点 可以直接表示概率的分布,不仅是一个点估计。 允许融入先验信息,适合动态调整测试策略。 缺点 分析和解释需要统计背景知识。 不适合频率统计中的经典显著性检验。 6....

November 18, 2024 · 1 min · 128 words · Marina