Running thousands of experiments effectively means carefully balancing our speed with the necessary controls to maintain trust in experimental outputs - but figuring out that balance is never easy. Traditionally, experimentation velocity tradeoffs are focused on minimizing the false positive rate (FPR), which heavily leans towards maintaining the status quo. For example, in Figure 1 we show the Type I (false positive) and Type II (false negative) error rates from typical experiments. In this traditional setup, the experimenter makes an explicit assumption that accidentally shipping a false positive has four times the risk relative to the opportunity cost of not shipping a completely valid treatment.
Aunque esta forma de pensar ha sido generalmente la norma tanto en la industria como en el mundo académico, crea ciertos retos cuando se trata del desarrollo de productos. En concreto, crea los siguientes problemas:
- Significa hacer menos experimentos con mayores requisitos de confianza. Estas condiciones reducen la velocidad y crean serias dificultades para el desarrollo de productos cuyos procesos dependen de un bucle de retroalimentación muy rápido.
- Hace que la experimentación sea menos accesible como herramienta para empresas y equipos que no disponen de grandes tamaños de muestra pero tienen muchas ideas que quieren poner a prueba.
- Ignora que los criterios convencionales para la toma de decisiones son simples directrices y que los porcentajes de error deben fijarse caso por caso. Por ejemplo, Jacob Cohen, psicólogo y estadístico estadounidense conocido sobre todo por su trabajo sobre la potencia estadística y el tamaño de los efectos, era muy franco al afirmar que sus directrices sobre umbrales son "valores elegidos [que] no tienen más base fiable que mi propia intuición"(pág. 532, Cohen, 1988), y que un investigador debe crear sus propias directrices cuando esté justificado.
Este artículo destacará algunas ideas para impulsar la experimentación con éxito y cómo equilibrar la velocidad con la confianza en la experimentación:
- Una mayor velocidad impulsa el impacto: En esta sección, ilustraremos por qué el aumento de la velocidad puede ser un gran impulsor del impacto y por qué es útil enmarcar las compensaciones de la experimentación en el contexto de la maximización de la recompensa en lugar de minimizar la tasa de falsos positivos.
- Aumentar la confianza mediante la estandarización: En esta sección destacaremos que hay mejores formas de aumentar la confianza y reducir el error de tipo I inflado que no se basan en umbrales conservadores de regla empírica.
Por qué es importante la velocidad de experimentación
Podemos construir un sencillo modelo de simulación para comprender el impacto de la velocidad en la experimentación. Supongamos que hay dos start-ups que compiten en un sector idéntico. Cada una de ellas está dirigida por directores generales que tienen puntos de vista algo divergentes sobre la experimentación.
- El CEO de alta confianza viene acompañado de un fuerte sesgo investigador. Esto significa que todos los experimentos deben planificarse cuidadosamente, y que los resultados sólo son válidos si superan el umbral convencional de p-valor de 0,05. Tenga en cuenta que este CEO es la línea de base para la toma de decisiones por parte de los equipos que utilizan la experimentación tanto en la industria como en el mundo académico.
- El CEO de High-velocity valora la flexibilidad y se preocupa no sólo por la validez de los experimentos, sino también por la velocidad de iteración y el impacto empresarial. Dado que todos los experimentos tienen hipótesis direccionales, un umbral de p=0,05 se considera suficientemente bueno. Además, cualquier experimento que tenga el efecto del tratamiento con un error estándar que apunte en la dirección opuesta a la hipótesis se termina antes de tiempo (es decir, se nos permite echar un vistazo una vez a mitad de camino de nuestro tamaño de muestra objetivo y tomar una decisión de continuar/descontinuar).
A los dos directores generales les importa una sola métrica, que es la de pedidos-ingresos-por-usuario, que se sitúa en 30 dólares. Supondremos que el 20% de los efectos reales probados tienen un impacto negativo, el 60% no tienen ningún impacto y el 20% restante tienen un impacto positivo. Además, supondremos que todos los experimentos tienen unos porcentajes de error de Tipo I y Tipo II preestablecidos del 5% y el 20%, respectivamente. En un entorno restringido, en el que estos directores generales tienen más ideas que quieren probar que ancho de banda experimental, ¿qué director general es probable que obtenga un mayor rendimiento de la experimentación?
En nuestra simulación, el espionaje único y el umbral alfa unilateral conducirían a una tasa de falsos positivos mucho mayor que la opción alternativa. Si nuestro objetivo es minimizar la tasa de falsos positivos, el CEO de alta velocidad no ha logrado ese objetivo. No obstante, como muestra la Figura 2, el CEO de alta velocidad es capaz de realizar un 50% más de experimentos y conseguir 1 dólar más de impacto real en los ingresos. Al hacer un compromiso en torno a los valores p y los criterios de detención temprana, el CEO de alta velocidad es capaz de obtener una mayor recompensa, incluso después de tener en cuenta las consecuencias negativas de una mayor tasa de falsos positivos. Este ejemplo de comparación entre la alta confianza y la alta velocidad pone de relieve que centrarse en la recompensa maximiward incluso después de tener en cuenta las consecuencias negativas de un aumento de la tasa de falsos positivos. Este ejemplo de comparación entre alta confianza y alta velocidad pone de relieve que centrarse en estrategias de maximización de la recompensa en la experimentación puede dominar los criterios convencionales que minimizan las tasas de falsos positivos.
Manténgase informado con las actualizaciones semanales
Suscríbase a nuestro blog de ingeniería para recibir actualizaciones periódicas sobre los proyectos más interesantes en los que trabaja nuestro equipo.
Introduzca una dirección de correo electrónico válida.
Gracias por suscribirse.
Las ventajas de mantener una alta velocidad
La velocidad es una de las principales razones por las que DoorDash se preocupa tanto por la reducción de la varianza y sus beneficios. Sin embargo, es más útil pensar en la velocidad en el contexto del ciclo de vida general de la experimentación. La velocidad se mide desde el momento en que a alguien se le ocurre una idea hasta el momento en que es capaz de tomar una decisión basada en los resultados experimentales, por lo que centrarse en las múltiples iniciativas de velocidad descritas en la Figura 3 puede tener grandes beneficios. En DoorDash, entre los equipos que optimizan sus flujos de trabajo en torno a la velocidad de experimentación, hemos observado los siguientes puntos fuertes:
- Mejor comprensión de las métricas: Los experimentos ofrecen una gran oportunidad para estar más en sintonía con los impulsores de las métricas de la empresa, comprender los efectos de mediación, encontrar variables instrumentales, hacer compensaciones y ejecutar metaanálisis. Hemos observado constantemente que la gente construye mejores perspectivas de sus productos y métricas y más empatía sobre sus usuarios porque los experimentos son una función forzosa para hacerlo.
- Mayor fiabilidad: Si lanzas un experimento una vez, puede que de vez en cuando tengas la base de código llena de números mágicos o bifurcaciones sin documentar, porque puede que te digas a ti mismo que "esto no se va a usar o modificar mucho". Si se te pide que lances docenas de experimentos, se te da explícitamente una motivación para hacer un mejor trabajo a la hora de establecer archivos de configuración claros, automatizar tareas repetitivas y escribir código que sea más funcional, desacoplado y refactorizable. La experimentación obliga a tomar mejores decisiones de codificación y arquitectura porque siempre se está pensando en cómo introducir flexibilidad para lanzar nuevos cambios más rápidamente, facilitar las modificaciones y reducir el impacto de los despliegues perjudiciales.
- Mayor autonomía: Para permitir una mayor velocidad, la empresa debe confiar en los experimentadores para operar en una cultura de fracaso y aprendizaje rápidos. Se pide a los equipos individuales que se manejen con propiedad y responsabilidad, y no hay un órgano general de supervisión a través del cual se embotellen las decisiones. Esta autonomía es una gran motivación para los equipos de alto rendimiento.
La velocidad no siempre es el objetivo
Las compensaciones que hacemos entre velocidad y confianza vienen determinadas por el sector y por el coste de poner en marcha un tratamiento que podría tener un impacto negativo. Las decisiones sobre contratación, tratamientos farmacológicos, aprobación de créditos o política social requieren una mayor carga de pruebas. Del mismo modo, las decisiones que no son fácilmente reversibles y requieren una mayor carga de mantenimiento también deberían necesitar más pruebas. No obstante, muchas industrias y contextos no se benefician de un proceso de decisión que prescriba restricciones convencionales sobre la velocidad, y debería animarse a los experimentadores a centrarse en la maximización de la recompensa en lugar de minimizar la tasa de falsos positivos.
Además, la compensación entre velocidad y confianza debería atenuarse en función de la eficiencia con la que los equipos ejecutan y utilizan su capacidad experimental. Si un equipo ejecuta un experimento cuando tiene capacidad para ejecutar diez, resulta beneficioso ser más conservador porque no hay coste de oportunidad derivado de un retraso en la toma de decisiones o de una iteración más lenta de las ideas.
Por qué es importante la confianza en la experimentación
Las réplicas fallidas son habituales en los entornos de investigación académica, donde la probabilidad de publicar en las mejores revistas es muy baja, los artículos se someten a múltiples revisiones y existen altos niveles de escrutinio, pero los incentivos de "publicar o perecer" son inevitables. Por ejemplo, en 2015, Nosek et al publicaron un exhaustivo estudio de replicación en la revista Science en el que destacaban que, entre 100 experimentos destacados de psicología, aproximadamente el 66 % de los intentos de replicación fracasaron (véase la figura 4). No obstante, en un entorno industrial, también podemos vernos comprometidos por incentivos, como el deseo de reconocimiento y de fomentar las buenas relaciones con las partes interesadas que nos rodean. Ese deseo humano puede inclinarnos a buscar resultados o a participar en prácticas que pueden reducir la confianza en los resultados experimentales.
Hay muchos factores que afectan a la confianza en la experimentación (véase la Figura 5). Aunque la convención puede empujarnos a examinar cosas específicas como los valores p, la raíz de muchos problemas de experimentación tiene que ver con no poner por escrito cosas como cuál es la hipótesis, cómo probarla, cuáles serán sus métricas, las covariables, la duración del experimento, la unidad de aleatorización y el modelo estadístico que utilizará para analizar los datos antes del lanzamiento del experimento. El registro de estos factores tiene un enorme impacto en la reducción de los grados de libertad del investigador, la obtención de información más precisa de las partes interesadas y la reducción del p-hacking. Cualquier persona puede ver el análisis y compararlo con el diseño del experimento y señalar incoherencias en la planificación.
En esta sección, destacaremos dos temas que afectan a la confianza y que son especialmente difíciles de resolver a escala:
- Evitar el arbitraje métrico y
- Garantizar la invariancia métrica.
Cómo el arbitraje métrico elimina las victorias experimentales
El arbitraje de métricas se produce cuando un equipo tiene una métrica principal y una métrica de protección. El equipo quiere que la métrica principal sea positiva y estadísticamente significativa y que la métrica de control se mantenga estable o no sufra deterioro. El arbitraje de métricas afecta específicamente a las grandes organizaciones en las que los equipos operan en un contexto descentralizado. A medida que las empresas escalan y crecen, aumenta la entropía. Para seguir siendo productivos y garantizar una mayor concentración, los equipos que poseen una gran área del producto se subdividen en equipos separados que a veces tienen prioridades contrapuestas. Por ejemplo, podríamos tener los siguientes subequipos:
- El objetivo del equipo de crecimiento es aumentar el número de usuarios con una cierta limitación de eficiencia representada por el coste/usuario. El equipo está dispuesto a gastar como máximo 10 $ para adquirir un nuevo consumidor. Si adquieren un consumidor por debajo de esa barrera de 10 $, lo están haciendo muy bien.
- El equipo de fijación de precios se centra en la rentabilidad y es responsable de fijar el precio del producto. Están dispuestos a ahorrar al menos 10 dólares aunque ello suponga perder un consumidor.
Ambos equipos operan a partir de las mismas compensaciones, lo que en sí mismo es muy raro. No obstante, incluso si los equipos se basan fundamentalmente en las mismas compensaciones, pueden llevar a cabo muchas acciones para que la métrica principal tenga más probabilidades de superar la significación estadística, mientras que la métrica de la barandilla se considera no estadísticamente significativa. Por ejemplo:
- Team Growth might ship a promotion that will bring more users with a p < 0.01, but will ignore the potential increase in costs to $15/user because p-value is 0.2.
- Team Pricing podría aumentar los precios, lo que supondría un incremento de 1 $/usuario, pero ignoraría el riesgo potencial de una disminución del crecimiento de usuarios porque el valor p es 0,3.
Aunque los resultados descritos anteriormente puedan parecer incongruentes, dado que la varianza de una métrica entre equipos no debería cambiar, este tipo de resultados se pueden conseguir fácilmente simplemente decidiendo aplicar la reducción de la varianza de forma selectiva sólo en la métrica principal y no en la métrica de la barrera de seguridad (véase la Figura 6). Cuando aplicamos la reducción de la varianza, reducimos el error estándar en torno a la métrica principal, mientras que mantenemos amplio el error estándar para la métrica de la barandilla.
As companies become larger, having a shared understanding of metrics and tradeoffs becomes paramount. Even if you have top-notch experimentation tooling, research methods, tracking, and telemetry, if teams are allowed to operate without metrics consistency and alignment, arbitrage can completely eliminate the benefits of running experiments since teams cancel out each other's improvements. Although there are statistical approaches that focus on equivalence testing that specifically deal with testing for the absence of evidence, the core problems are driven by a lack of standardization and researcher degrees of freedom. Within the Experimentation platform, we attempt to reduce metric arbitrage by having a good integration with our internal Metrics platform. To reduce arbitrage, we specifically focused on the following:
- Definiciones normalizadas de las métricas. La primera solución es asegurarse de que los equipos utilicen un conjunto de definiciones métricas compartidas. Es muy fácil durante el proceso de ejecución de un experimento reinventar las definiciones o ajustarlas ligeramente a su subequipo específico. Aunque debe permitirse a los experimentadores definir nuevas métricas o redefinir métricas, ya que ese proceso fomenta la exploración de nuevas ideas, es necesario que las partes interesadas puedan ver claramente que las nuevas definiciones de métricas son incoherentes con las métricas estandarizadas utilizadas en toda la empresa.
- Siempre en los guardarraíles. La segunda solución consiste en asegurarse de que cuando un usuario interno lanza un experimento, no se le permite optar por no realizar el seguimiento de un conjunto de métricas de guardarraíles que preocupan a la mayoría de las partes interesadas dentro de la empresa.
- Conocimiento de las métricas. Esta tercera solución consiste en exponer a los equipos cómo se realizan las compensaciones dentro de la plataforma mediante informes sobre experimentos históricos. Por ejemplo, podemos permitir que las partes interesadas filtren una métrica específica y vean todos los experimentos históricos que se lanzaron y que afectaron a esa métrica. A continuación, podrían desglosar los experimentos en los que la métrica fue negativa y preguntar a los diferentes subequipos qué les hizo tomar una decisión de lanzamiento que condujo a un impacto métrico perjudicial. Al aumentar esta transparencia, los equipos internos pueden mantener un debate más abierto sobre las compensaciones.
La integración con una plataforma de métricas permite a los equipos comunicar de forma más eficaz y transparente cómo realizan las compensaciones o los casos de superficie cuando los equipos compiten entre sí en un conjunto de prioridades. Esperamos mostrar el trabajo en la plataforma Metrics en una futura entrada del blog.
Cómo afecta la falta de invariabilidad métrica a la generalizabilidad
We commonly assume that water boils at a temperature of 100 °C (212 °F). Yet if you run multiple experiments under different conditions, you'll find that this assumption does not generalize. Instead, atmospheric pressure often affects the boiling temperature of water, with increased elevation seeing a lower boiling point. This is why at the top of mount Everest, water boils at 70° Celsius, and pressure cookers are becoming a staple appliance in kitchens due to how efficiently they can speed up the cooking process. The inconsistent relationship between temperature and boiling point for water is an example of a metric lacking invariance. In one experiment you might be able to establish a relationship between X and Y, but that relationship changes based on many mediator variables present in the environment. If your environment changes, you have to adjust the assumptions you made.
Encontramos una falta de invariancia métrica en una gran parte de nuestros experimentos.
- Un carrusel de cocina de temporada tiene un gran impacto a la hora de aumentar la tasa de pedidos, pero requiere que el carrusel se adapte correctamente y se actualice con regularidad a la temporada correspondiente. Proporcionar a los usuarios un carrusel de ofertas de helados durante los meses de invierno porque un experimento en los meses de verano mostró una mayor conversión probablemente sería un error.
- We might assume that if we improve how quickly a page loads, we will see increased revenue. Nonetheless, time is a reality perceived by the user and there are perceptual and cognitive limits below which users are likely not sensitive to changes in page load times. Therefore, you might find that a 0.2s improvement doesn't translate to any meaningful impact when your latency is already perceived to be fast.
- Podríamos construir una palanca más eficiente para gestionar la oferta y la demanda, pero la presencia de una oferta saludable significa que esta palanca rara vez se despliega, lo que conduce a métricas planas. En un entorno de escasez de oferta, la palanca podría tener un gran impacto.
- Es posible que una nueva interfaz de usuario aumente la participación, pero que el impacto a largo plazo se mantenga estable debido a los efectos de la novedad.
La mejor solución a este problema es considerar los experimentos como una oportunidad de aprendizaje, independientemente del resultado de un experimento concreto. Este escrutinio y exploración tienen varios beneficios.
- Nos permiten aumentar la tasa de éxito de los lanzamientos experimentales. Si un equipo tiene una tasa de éxito del 20% en el lanzamiento de un primer experimento, esa cifra puede duplicarse a menudo tras un relanzamiento porque el primer experimento nos indica cómo ajustar el tratamiento en los experimentos de seguimiento.
- All experiments provide meaningful lessons and serve as a rich source of potential projects. The magic of experimentation is that every time you complete one experiment, you're often left with enough ideas to follow up with two or three other treatments.
- Por último, los seguimientos pueden permitirnos comprender en qué condiciones se generalizará nuestro tratamiento. Por ejemplo, cuando construimos palancas para abordar el desequilibrio entre la oferta y la demanda, podríamos enviar resultados globales planos si tenemos pruebas suficientes que sugieran que el efecto del tratamiento aumenta en función de la escasez de oferta en el mercado.
En general, para cualquier experimentalista, merece la pena invertir tiempo en familiarizarse con algunas de las herramientas de inferencia causal que van más allá de la simple estimación ATE (véase Imai, King y Stuart, 2008).
Conclusiones
Para que un paradigma de experimentación tenga éxito es necesario operar con gran confianza y alta velocidad. Desgraciadamente, estas dos condiciones a menudo compiten entre sí. Por lo general, recomendamos centrarse en lo siguiente para ayudar a equilibrar ambas.
- Si tiene una larga cartera de ideas y una alta capacidad de ejecución, pero los experimentos tardan más en ejecutarse, céntrese en cosas que mejoren la velocidad: reducción de la varianza, umbrales alfa más altos, pruebas secuenciales, estandarización y automatización, y proceso de revisión rápida de los experimentos. A veces esto puede conducir a una mayor tasa de falsos positivos, pero mientras el equipo haga más apuestas experimentales, es probable que maximice el impacto de la experimentación.
- Si observa una falta de coherencia en las métricas, fallos en la replicación o una tendencia a racionalizar cualquier resultado de los experimentos, céntrese en la estandarización pidiendo a los experimentadores que registren previamente sus propuestas, realicen un seguimiento cuidadoso de las métricas y sean muy explícitos sobre cómo toman las decisiones antes del lanzamiento de los experimentos. La mejor forma de mitigar el error de tipo I es adoptar mejores prácticas de investigación en lugar de compensar mediante umbrales más conservadores.
Si te apasiona crear aplicaciones ML que tengan un impacto positivo en la vida de millones de comerciantes, Dashers y clientes, considera unirte a nuestro equipo.
Agradecimientos
Gracias a Jared Bauman y Kurt Smith por sus comentarios sobre este artículo y a todo el equipo de Experimentación por sus interesantes debates sobre cómo maximizar el impacto de la experimentación.