Kalkulator A/B Test

Hitung signifikansi perbedaan konversi antara dua varian website

šŸŽÆ Varian A (Kontrol)

šŸŽØ Varian B (Variasi)

šŸ“š Kriteria Signifikansi:

  • • Z-Score > 1.96: Hasil signifikan secara statistik (Confidence Level 95%).
  • • Lift: Persentase kenaikan (atau penurunan) B dibanding A.
  • • Pastikan jumlah sampel cukup besar agar hasil lebih akurat.

Hasil akan dihitung secara otomatis saat input terisi

Kalkulator A/B Test - Signifikansi Statistik & Conversion Rate

Kalkulator A/B Test gratis. Hitung signifikansi statistik, conversion rate, lift, dan z-score untuk menentukan apakah hasil eksperimen Anda signifikan.

Rumus A/B Test (Two-Proportion Z-Test)

Z = (p₁ - pā‚‚) / √[p(1-p)(1/n₁ + 1/nā‚‚)]

Keterangan:

  • p₁Conversion Rate Varian A (Kontrol)
    Conversion Rate Varian A (Kontrol)(contoh: 10% (0.10))
  • pā‚‚Conversion Rate Varian B (Eksperimen)
    Conversion Rate Varian B (Eksperimen)(contoh: 13% (0.13))
  • n₁Jumlah sampel Varian A (Total pengunjung)
    Jumlah sampel Varian A (Total pengunjung)(contoh: 1000)
  • nā‚‚Jumlah sampel Varian B (Total pengunjung)
    Jumlah sampel Varian B (Total pengunjung)(contoh: 1000)
  • pPooled proportion: (x₁ + xā‚‚) / (n₁ + nā‚‚)
    Pooled proportion: (x₁ + xā‚‚) / (n₁ + nā‚‚)(contoh: 0.115)
  • ZZ-Score (Skor signifikansi statistik)
    Z-Score (Skor signifikansi statistik)(contoh: 2.16)
  • LiftPersentase kenaikan/penurunan performa
    Persentase kenaikan/penurunan performa(contoh: +30%)

Cara Menggunakan Kalkulator A/B Test

  1. 1

    Input Data Varian A (Kontrol)

    Masukkan jumlah konversi (misal: 100) dan total sampel/pengunjung (misal: 1000) untuk varian kontrol.

  2. 2

    Input Data Varian B (Eksperimen)

    Masukkan data yang sama untuk varian eksperimen (penantang), misal: 130 konversi dari 1000 pengunjung.

  3. 3

    Pilih Confidence Level

    Pilih tingkat kepercayaan: 90% (Z > 1.645), 95% (Z > 1.96, standar industri), atau 99% (Z > 2.576).

  4. 4

    Analisis Hasil

    Lihat Conversion Rate, Lift (kenaikan), Z-Score, dan status Signifikansi. Jika Z-Score > nilai kritis, perbedaan signifikan secara statistik.

Contoh Perhitungan

Contoh 1: Varian B Menang Signifikan (E-commerce)

Soal:

Sebuah toko online menguji tombol 'Beli Sekarang'. Varian A (warna biru): 100 konversi dari 1000 pengunjung. Varian B (warna merah): 130 konversi dari 1000 pengunjung. Uji dengan confidence level 95%.

Penyelesaian:
  1. 1.Hitung Conversion Rate (CR) Varian A: p₁ = 100 / 1000 = 0.10 atau 10%
  2. 2.Hitung CR Varian B: pā‚‚ = 130 / 1000 = 0.13 atau 13%
  3. 3.Hitung Lift: (13% - 10%) / 10% Ɨ 100% = +30%
  4. 4.Hitung Pooled Proportion: p = (100 + 130) / (1000 + 1000) = 230/2000 = 0.115
  5. 5.Hitung Standard Error: √[0.115 Ɨ (1-0.115) Ɨ (1/1000 + 1/1000)] = √[0.1018 Ɨ 0.002] = √0.0002036 ā‰ˆ 0.01427
  6. 6.Hitung Z-Score: Z = (0.13 - 0.10) / 0.01427 = 0.03 / 0.01427 ā‰ˆ 2.10
  7. 7.Bandingkan dengan nilai kritis 95%: 1.96. Karena 2.10 > 1.96, maka signifikan.
Hasil:Z-Score: 2.10 | Lift: +30% | Status: SIGNIFIKAN (95% confidence)

Varian B (tombol merah) menang dengan kenaikan conversion rate sebesar 30% yang signifikan secara statistik. Anda dapat mempercayai hasil ini dengan tingkat kepercayaan 95%.

Contoh 2: Hasil Tidak Signifikan (Butuh Sampel Lebih Banyak)

Soal:

Uji headline landing page. Varian A: 50 konversi dari 1000 pengunjung. Varian B: 55 konversi dari 1000 pengunjung. Confidence level 95%.

Penyelesaian:
  1. 1.CR Varian A: p₁ = 50 / 1000 = 0.05 atau 5%
  2. 2.CR Varian B: pā‚‚ = 55 / 1000 = 0.055 atau 5.5%
  3. 3.Lift: (5.5% - 5%) / 5% Ɨ 100% = +10%
  4. 4.Pooled Proportion: p = (50 + 55) / (1000 + 1000) = 105/2000 = 0.0525
  5. 5.Standard Error: √[0.0525 Ɨ (1-0.0525) Ɨ (1/1000 + 1/1000)] = √[0.0497 Ɨ 0.002] = √0.0000994 ā‰ˆ 0.00997
  6. 6.Z-Score: Z = (0.055 - 0.05) / 0.00997 = 0.005 / 0.00997 ā‰ˆ 0.50
  7. 7.Nilai kritis 95% = 1.96. Karena 0.50 < 1.96, maka TIDAK signifikan.
Hasil:Z-Score: 0.50 | Lift: +10% | Status: TIDAK SIGNIFIKAN

Meskipun Varian B menunjukkan kenaikan 10%, secara statistik belum ada cukup bukti untuk menyatakan Varian B lebih baik. Sampel terlalu kecil untuk mendeteksi perbedaan sekecil ini. Disarankan menambah jumlah sampel atau memperbesar perbedaan variabel uji.

Contoh 3: Varian B Lebih Buruk (Negative Lift)

Soal:

Uji desain formulir checkout. Varian A (form lama): 200 konversi dari 2000 pengunjung. Varian B (form baru): 180 konversi dari 2000 pengunjung. Confidence level 95%.

Penyelesaian:
  1. 1.CR Varian A: p₁ = 200 / 2000 = 0.10 atau 10%
  2. 2.CR Varian B: pā‚‚ = 180 / 2000 = 0.09 atau 9%
  3. 3.Lift: (9% - 10%) / 10% Ɨ 100% = -10% (penurunan)
  4. 4.Pooled Proportion: p = (200 + 180) / (2000 + 2000) = 380/4000 = 0.095
  5. 5.Standard Error: √[0.095 Ɨ (1-0.095) Ɨ (1/2000 + 1/2000)] = √[0.0865 Ɨ 0.001] = √0.0000865 ā‰ˆ 0.00930
  6. 6.Z-Score: Z = (0.09 - 0.10) / 0.00930 = -0.01 / 0.00930 ā‰ˆ -1.08
  7. 7.Nilai kritis 95% = 1.96 (|1.08| < 1.96), maka TIDAK signifikan.
Hasil:Z-Score: -1.08 | Lift: -10% | Status: TIDAK SIGNIFIKAN

Varian B menunjukkan penurunan 10% tetapi belum mencapai signifikansi statistik. Artinya, penurunan ini kemungkinan besar terjadi karena variasi acak, bukan karena desain form baru yang buruk. Namun, jika tren negatif berlanjut dengan sampel lebih besar, form baru harus dievaluasi ulang.

Contoh 4: Uji dengan Confidence Level 99% (Kedokteran/High Stakes)

Soal:

Rumah sakit menguji metode pengobatan baru. Varian A (standar): 500 sembuh dari 5000 pasien. Varian B (baru): 550 sembuh dari 5000 pasien. Uji dengan confidence level 99% (Z > 2.576).

Penyelesaian:
  1. 1.CR Varian A: p₁ = 500 / 5000 = 0.10 atau 10%
  2. 2.CR Varian B: pā‚‚ = 550 / 5000 = 0.11 atau 11%
  3. 3.Lift: (11% - 10%) / 10% Ɨ 100% = +10%
  4. 4.Pooled Proportion: p = (500 + 550) / (5000 + 5000) = 1050/10000 = 0.105
  5. 5.Standard Error: √[0.105 Ɨ (1-0.105) Ɨ (1/5000 + 1/5000)] = √[0.0940 Ɨ 0.0004] = √0.0000376 ā‰ˆ 0.00613
  6. 6.Z-Score: Z = (0.11 - 0.10) / 0.00613 = 0.01 / 0.00613 ā‰ˆ 1.63
  7. 7.Nilai kritis 99% = 2.576. Karena 1.63 < 2.576, maka TIDAK signifikan di level 99%.
Hasil:Z-Score: 1.63 | Lift: +10% | Status: TIDAK SIGNIFIKAN (99% confidence)

Meskipun Varian B menunjukkan perbaikan 10%, dengan standar ketat 99% confidence level (untuk keputusan medis yang kritis), hasil ini belum cukup signifikan. Diperlukan sampel lebih besar atau efek yang lebih besar untuk membuktikan keunggulan metode baru dengan tingkat keyakinan 99%.

Pertanyaan yang Sering Diajukan (FAQ)

Apa itu A/B Test dan bagaimana cara kerjanya?
A/B Test (pengujian A/B atau split testing) adalah metode membandingkan dua versi (Varian A sebagai kontrol dan Varian B sebagai eksperimen) untuk menentukan mana yang lebih baik berdasarkan metrik tertentu seperti conversion rate. Pengguna dibagi secara acak ke dua kelompok, dan performa keduanya dibandingkan menggunakan uji statistik.
Apa itu Z-Score dalam A/B Test?
Z-Score adalah ukuran statistik yang menunjukkan seberapa jauh perbedaan conversion rate antara dua varian dari nilai yang diharapkan jika kedua varian sebenarnya sama. Z-Score tinggi (di atas nilai kritis) menunjukkan perbedaan tersebut tidak mungkin terjadi karena kebetulan. Untuk 95% confidence, Z > 1.96 dianggap signifikan.
Berapa Confidence Level (Tingkat Kepercayaan) yang sebaiknya digunakan?
90% (Z > 1.645): Digunakan untuk uji cepat atau risiko rendah. 95% (Z > 1.96): Standar industri untuk sebagian besar A/B test. 99% (Z > 2.576): Digunakan untuk keputusan berisiko tinggi seperti kedokteran atau perubahan besar pada produk. Semakin tinggi confidence level, semakin banyak sampel yang dibutuhkan.
Berapa sampel yang dibutuhkan untuk A/B Test yang valid?
Ukuran sampel bergantung pada baseline conversion rate, minimum detectable effect (MDE/lift yang ingin dideteksi), dan confidence level. Secara umum, semakin kecil perbedaan yang ingin dideteksi, semakin besar sampel yang dibutuhkan. Gunakan Kalkulator Sample Size kami untuk menghitung kebutuhan sampel yang tepat sebelum memulai eksperimen.
Apa arti Negative Lift dan apa yang harus dilakukan?
Negative Lift berarti Varian B berkinerja lebih buruk daripada Varian A (penurunan conversion rate). Jika hasilnya signifikan secara statistik, segera hentikan eksperimen dan kembali ke Varian A. Jika tidak signifikan, perubahan tersebut mungkin tidak berdampak nyata atau sampel belum cukup untuk mendeteksi perbedaan.
Berapa lama durasi ideal untuk menjalankan A/B Test?
Idealnya minimal 1-2 siklus bisnis penuh (biasanya 2-4 minggu) untuk mengakomodasi fluktuasi harian dan mingguan (weekend vs weekday), serta mencapai ukuran sampel yang cukup. Jangan menghentikan tes terlalu awal (peeking) karena dapat menghasilkan kesimpulan yang salah.
Apa bedanya Signifikansi Statistik dan Signifikansi Praktis?
Signifikansi Statistik memastikan perbedaan bukan karena kebetulan (hasil dari uji statistik seperti Z-Test). Signifikansi Praktis melihat apakah perbedaan tersebut cukup besar untuk berdampak nyata pada bisnis. Contoh: Kenaikan 0.1% mungkin signifikan secara statistik dengan sampel sangat besar, tetapi mungkin tidak cukup berarti secara praktis (biaya implementasi mungkin lebih mahal dari manfaatnya).
Apa itu P-Value dan bagaimana hubungannya dengan Z-Score?
P-Value adalah probabilitas mendapatkan hasil setara atau lebih ekstrem dari yang diamati, jika asumsi null hypothesis (kedua varian sama) benar. P-Value rendah (< 0.05 untuk 95% confidence) berarti kita dapat menolak null hypothesis. Hubungannya: semakin tinggi Z-Score, semakin rendah P-Value. Z = 1.96 setara dengan P-Value ā‰ˆ 0.05.

Kalkulator Terkait

Referensi