Calculadora de Pruebas A/B
Calcula la significación estadística de una prueba A/B (valor p, puntuación z) o el tamaño de muestra necesario. Prueba z bilateral para dos proporciones. Sin registro.
Variante A (control)
Variante B (prueba)
Veredicto
No significativo — recopila más datos
Confianza: 84,71 % · Valor p: 0,1529
Tasa de conversión A
10%
Tasa de conversión B
12%
Incremento
+20%
Puntuación z
1,429
Fórmula de la prueba z para dos proporciones
z = (p₂ − p₁) / √(p̄ · (1 − p̄) · (1/n₁ + 1/n₂))
p̄ es la tasa de conversión combinada de ambos grupos. El valor p bilateral se calcula mediante la distribución normal estándar.
Cómo usar la calculadora
Una sola herramienta cubre las dos tareas de un analista de producto: planificar una prueba antes de que empiece y juzgar su significación una vez terminada.
Elige un modo
Usa el selector superior para alternar entre Significación (analizar datos recopilados) y Tamaño de muestra (planificar una prueba futura).
Introduce los datos
Para significación — visitantes y conversiones de cada variante. Para tamaño de muestra — tasa de conversión base, MDE, nivel de significación y potencia estadística.
Lee el resultado
Obtienes un veredicto con el valor p y la puntuación z, o el número exacto de usuarios que necesitas asignar a cada variante de la prueba.
Por qué usar esta calculadora
Dos herramientas en una
Planifica el tamaño de muestra antes de la prueba. Comprueba la significación estadística después. Sin necesidad de cambiar entre servicios.
Fórmulas transparentes
Usamos la clásica prueba z de dos proporciones y la fórmula estándar de tamaño de muestra para dos proporciones. Sin cajas negras — la matemática se muestra en la página.
Funciona para cualquier métrica binaria
Tasa de conversión, CTR, retención, clics en botones — cualquier cosa medida como «ocurrió / no ocurrió» por usuario único.
Preguntas frecuentes sobre pruebas A/B
¿Qué valor p se considera significativo?
Tradicionalmente p < 0,05, que corresponde a un 95 % de confianza en que la diferencia entre variantes no es aleatoria. En áreas sensibles (medicina, finanzas) se usa un umbral más estricto de 0,01.
¿Qué es el MDE?
Efecto Mínimo Detectable — la mejora más pequeña que la prueba podrá detectar con la potencia elegida. Si la referencia es del 10 % y el MDE es del 10 %, la prueba detectará cualquier cambio al 11 % o más. Un MDE más pequeño requiere un tamaño de muestra desproporcionadamente mayor.
¿Qué es la potencia estadística?
La probabilidad de detectar correctamente un efecto si realmente existe. El valor estándar del sector es del 80 %: una prueba con esta potencia no detectará una mejora real el 20 % de las veces. Para decisiones críticas usa el 90 %.
¿Puedo detener la prueba antes si ya es significativa?
No. Revisar los resultados intermedios infla drásticamente la tasa de falsos positivos — tu valor p real será mucho más alto que el mostrado. Ejecuta la prueba hasta la N planificada y solo entonces mira el resultado. Si necesitas detenerla antes, usa pruebas secuenciales o métodos bayesianos.