Ir al contenido

Blog


Adapted Switch-back Testing to Quantify Incrementality for App Marketplace Search Ads

8 de noviembre de 2022

|
Kanhua Pan

Kanhua Pan

Yingying Chen

Yingying Chen

En DoorDash, utilizamos la experimentación como uno de los enfoques sólidos para validar el retorno incremental de la inversión en marketing. Sin embargo, la realización de pruebas de incrementalidad en plataformas publicitarias puede resultar complicada por diversos motivos. No obstante, nos esforzamos por aplicar de forma creativa enfoques de prueba probados para permitir diseños experimentales científicamente rigurosos siempre y cuando sea posible.

Un ejemplo reciente es la realización de una prueba de optimización de la publicidad en un mercado de aplicaciones. En el pasado, nos costó determinar el impacto de nuestras campañas publicitarias de búsqueda para impulsar las descargas de la aplicación DoorDash a través de ese mercado de aplicaciones. Entre los problemas se incluye la falta de control sobre la intervención de marketing (por ejemplo, los usuarios del grupo de tratamiento tendrán la oportunidad de ver la publicidad, mientras que los del grupo de control no la verán intencionadamente) y la falta de orientación geográfica precisa en la plataforma de anuncios. A pesar de estas complicaciones, fuimos capaces de idear un enfoque viable aprovechando las pruebas de conmutación junto con cálculos de referencia para superar las limitaciones de la plataforma y realizar con éxito una prueba de incrementalidad estadísticamente rigurosa.

Retos de la experimentación

Los canales de marketing digital suelen tener varias características que dificultan la realización de experimentos científicos. Identificamos tres obstáculos principales en relación con las pruebas en ese mercado de aplicaciones:

  • Sin marco de pruebas A/B
  • Sin capacidad para realizar experimentos precisos de geolocalización.
  • No es fácil llevar a cabo una aleatorización a nivel de usuario, ya que los usuarios tienen la opción de bloquear el identificador IDFA a nivel de aplicación.
  • Ningún enfoque sólido de inferencia causal mediante control sintético

Analizaremos en detalle cada uno de estos obstáculos y veremos cómo afectan a nuestra capacidad de realizar una prueba de incrementalidad. 

Manténgase informado con las actualizaciones semanales

Suscríbase a nuestro blog de ingeniería para recibir actualizaciones periódicas sobre los proyectos más interesantes en los que trabaja nuestro equipo.

Sin marco de pruebas A/B 

El editor que utilizamos sólo permite a los anunciantes medir el impacto de diferentes creatividades publicitarias. Esta nueva capacidad de prueba no nos permite realizar experimentos para comprender el verdadero valor incremental de los anuncios en el rendimiento empresarial. Tradicionalmente, una prueba de incrementalidad eficaz comienza con la selección aleatoria de un grupo de tratamiento y un grupo de control, en el que el grupo de tratamiento recibe un anuncio y el grupo de control no. Lamentablemente, nuestro editor no dispone de la infraestructura necesaria para realizar pruebas A/B aleatorias de esta naturaleza.

No hay capacidad para apoyar un experimento de geo-targeting

Un enfoque alternativo a las pruebas A/B a nivel de usuario es realizar un experimento geográfico. Los geoexperimentos son una metodología cuasi experimental en la que se asignan aleatoriamente regiones geográficas (geografías) no superpuestas a un grupo de control o de tratamiento, y los anuncios sólo se muestran en las geografías del grupo de tratamiento. La correcta ejecución del experimento geográfico requeriría que la plataforma publicitaria dirigiera los anuncios al nivel pertinente de localización (ciudad, DMA, estado, etc.) y los vinculara a conversiones a nivel geográfico. Sin embargo, los usuarios pueden desactivar los anuncios basados en la ubicación según la política de preferencias de anuncios, por lo que no se garantiza una orientación geográfica precisa. 

No es fácil realizar una aleatorización a nivel de usuario

Con los cambios de la dinámica publicitaria, como las restricciones a la recopilación de datos de los usuarios, éstos tienen más control sobre si se les dirige o no publicidad, por lo que no podemos asignar grupos de control o tratamiento verdaderamente aleatorizados. Además, el intercambio de datos de usuario entre el anunciante y el editor se hace más estricto, ya que el sector valora la protección de los datos sensibles PII (información de identificación personal).

Ningún enfoque sólido de inferencia causal mediante control sintético

Otro enfoque comúnmente utilizado consiste en utilizar la metodología de control sintético para llevar a cabo un estudio de inferencia causal. La idea es encontrar un grupo de control sintético y utilizar una serie temporal del resultado anterior a la intervención de marketing de control para predecir el resultado durante la intervención de marketing (contrafactual) y, a continuación, medir la diferencia entre el contrafactual y el real. Dado que vamos a medir la descarga de aplicaciones, en este caso, podemos tratar de construir una relación entre Android y iOS dos plataformas. Sin embargo, dado que nuestras campañas a través de diferentes canales de marketing se optimizan de forma regular, la distribución de Android frente a iOS cambia constantemente. Como resultado, no hay una manera fácil de construir un modelo de control sintético robusto para llevar a cabo dicho estudio de inferencia causal. 

Cómo pudimos diseñar una prueba de incrementalidad

Para sortear estos obstáculos, desarrollamos un experimento de switchback adaptado, que puede proporcionar información sobre el verdadero retorno de la inversión de este editor. El requisito previo de este enfoque es medir una conversión que se produzca justo después de hacer clic en el anuncio, por ejemplo, la instalación de una aplicación. Si la conversión que desea medir tiene un desfase temporal tras el clic en el anuncio, el aumento de la conversión debe medirse mediante un factor escalar. Por ejemplo, la métrica de éxito que queremos medir es la adquisición de nuevos usuarios. Sin embargo, no podemos medir directamente los nuevos usuarios adquiridos porque el desfase entre los clics en los anuncios y los primeros pedidos puede ser de días. Por tanto, primero calculamos nuestra métrica intermedia: las descargas de aplicaciones para nuevos usuarios. A continuación, determinamos la tasa de conversión de los nuevos usuarios (de la descarga al primer pedido). Por último, multiplicamos las descargas de la aplicación y la tasa de conversión para determinar las adquisiciones incrementales de nuevos usuarios. 

A continuación se expone el proceso que desarrollamos para poner en práctica este experimento:

  1. Identificar las campañas de interés dirigidas a nuevos usuarios 
  2. Aleatorice la variante (campaña activada o desactivada) para cada día de la semana 1 e invierta la secuencia de variantes en la semana 2, así sucesivamente hasta que finalice la campaña. Con este enfoque, cada unidad de tiempo es una unidad experimental aleatoria.
  3. Recopilar la métrica de descargas de aplicaciones cada día durante la duración de la prueba.
  4. Agregue la métrica por grupo (campaña activada o desactivada) En la Figura 1, suponiendo que la prueba se desarrollara durante dos semanas, las celdas naranjas y grises denotan dos grupos de la prueba, donde las celdas naranjas representan las campañas desactivadas y las grises las campañas activadas. Las descargas de aplicaciones se agregan en una nueva semana como se muestra en cada color.
  5. Defina la métrica incremental midiendo la diferencia entre dos grupos.
  6. En combinación con la tasa de conversión, calcule los nuevos clientes incrementales. Esto se basa en dos supuestos: los anuncios no impulsan directamente la tasa de conversión incremental y los datos históricos sugieren que la tasa de conversión es relativamente estable con baja volatilidad.
Figura 1: un ejemplo del diseño de la prueba. Cada fila representa la semana real y las columnas representan los días de una semana. El objetivo es tener días aleatorios de campaña desactivada ( rojo) y de campaña activada ( gris) para construir el nuevo periodo de n días.
Figura 1: un ejemplo del diseño de la prueba. Cada fila representa la semana real y las columnas representan los días de una semana. El objetivo es tener días aleatorios de campaña desactivada ( rojo) y de campaña activada ( gris) para construir el nuevo periodo de n días.

A continuación, tenemos que determinar nuestro nivel de confianza en que las descargas incrementales de aplicaciones están impulsadas por los anuncios, en lugar de por la volatilidad aleatoria. No hay duda de que la variación de la métrica medida, las descargas de aplicaciones, siempre está presente. Por lo tanto, tenemos que encontrar una línea de base de dicha variación sin intervención de marketing.

Cálculo de la base de referencia  

Para medir con éxito la diferencia de descargas de aplicaciones, tenemos que determinar si la potencia estadística es suficiente para detectar las descargas incrementales provocadas por los anuncios. Realizamos una prueba t sobre la diferencia de descargas de aplicaciones a partir de datos históricos, calculando la línea de base de la diferencia de descargas de aplicaciones.

El uso de puntos de datos semanales limita la escala de los datos históricos, sobre todo después de excluir las semanas de vacaciones. Optamos por el bootstrap, que proporciona más puntos de datos mediante un muestreo aleatorio con sustitución. He aquí los pasos que desarrollamos para realizar el bootstrap de los datos y obtener una base de referencia adecuada:

  1. En consonancia con el diseño de la prueba, crear nuevas semanas basadas en el mismo patrón de aleatorización de los días.
  2. Calcular la diferencia entre dos nuevas semanas consecutivas
  3. Repite el paso dos un gran número de veces
  4. Calcule la media de cada muestra y, basándose en las muestras bootstrap del paso tres, mida el intervalo de confianza 

Tras el cálculo de referencia, como se muestra en la figura 2, determinamos la diferencia de descargas de aplicaciones en un intervalo de confianza del 95%, que denota la variación de descargas de aplicaciones sin intervención de los medios.

Figura 2: un ejemplo de muestras bootstrapped de descargas de aplicaciones. Las dos líneas discontinuas indican el intervalo de confianza del 95%.
Figura 2: un ejemplo de muestras bootstrapped de descargas de aplicaciones. Las dos líneas discontinuas indican el intervalo de confianza del 95%.

Consideración de la aleatorización de las unidades experimentales

Realizamos análisis previos al experimento basados en datos históricos contemplando los tres métodos de aleatorización siguientes: 

* Dos colores representan dos cubos que son campañas activadas y campañas desactivadas. En este ejemplo de dos semanas, siempre habrá siete días en un cubo.

A través del análisis, reflexionamos sobre los pros y los contras de los distintos métodos de aleatorización: 

  • No se recomienda el muestreo aleatorio simple, ya que no tiene en cuenta el efecto del día de la semana, que crea los grupos de control y tratamiento desequilibrados.
  • El muestreo aleatorio estratificado puede reducir los sesgos, sin embargo, necesitamos tomar muestras de una ventana temporal más larga, como se ilustra arriba. La prueba más larga perjudicará el objetivo de crecimiento empresarial, ya que no podemos llegar al público objetivo durante un periodo más largo sin campaña.  
  • Alternar los intervalos de tiempo puede aumentar algunos sesgos con el beneficio de reducir las varianzas. También tenemos un equilibrio de fines de semana asignados a los grupos de control y de tratamiento. Cuando analizamos los datos históricos, al simular el punto de partida de la campaña como encendido o apagado, no observamos un aumento significativo de los sesgos. 

Teniendo en cuenta las implicaciones comerciales y el rigor metodológico, elegimos el último método de aleatorización para el análisis.

Algunos puntos de control antes de realizar la prueba

Dada la naturaleza única de esta prueba, hay algunos puntos de control adicionales que debemos considerar para determinar la viabilidad de dicha prueba.

  • Comportamiento del usuario al ver un anuncio, especialmente: el tiempo que transcurre entre que el usuario ve el anuncio y descarga la aplicación. Si la descarga no es una acción inmediata después de ver un anuncio, el diseño actual de la prueba no será aplicable. Por ejemplo, si un usuario ve el anuncio durante un periodo de "campaña activada", pero lo descarga durante un periodo de "campaña desactivada", no se podrán aislar con éxito los escenarios de tratamiento y control.
  • El tiempo de intervención, por ejemplo, cuánto tardará en surtir efecto una pausa/despausa. Por ejemplo, hemos observado que los anuncios suelen tardar un par de horas en desaparecer después de pausarlos. Para compensar, planificamos con antelación e incorporamos esta ventana de tiempo a la prueba. 
  • La definición adecuada de la ventana de conversión. Predefinimos una ventana de conversión con el objetivo de captar la mayoría de las conversiones.

Antes de concluir formalmente el diseño de esta prueba, debemos considerar las limitaciones de lo que esta prueba puede medir.

Limitaciones de la prueba de incrementalidad 

  • El diseño de la prueba es propenso a sufrir interrupciones imprevisibles durante el periodo de prueba. Si se produce una interrupción del sistema (por ejemplo, el mercado de aplicaciones no funciona), los resultados podrían verse afectados. 
  • La línea de base requiere una coherencia relativa. En otras palabras, la tendencia de la línea de base histórica debe persistir a lo largo del periodo de prueba. Esta es también parte de la razón que nos motiva a tener en cuenta conocimientos comerciales como la estacionalidad conocida para la aleatorización, de modo que podamos observar la tendencia coherente de los periodos de referencia y de prueba.
  • Presión de la competencia sobre las pujas. Por ejemplo, los competidores podrían reaccionar a la dinámica de pujas durante el periodo de prueba y cambiar su estrategia de pujas, lo que tendría un impacto externo en las acciones de los usuarios hacia nuestros anuncios.

Conclusión

Para empresas basadas en datos como DoorDash, nos apoyamos en los aprendizajes de los beneficios incrementales generados por las inversiones en marketing de tales pruebas de incrementalidad, que guiarán al equipo de marketing de DoorDash sobre dónde gastar mejor sus dólares de publicidad. Anteriormente, no podíamos saber si esos anuncios en el mercado de aplicaciones impulsaban la captación de nuevos clientes, y en qué medida, debido a la falta de infraestructura de experimentación en la plataforma del editor. La técnica de switch-back propuesta ofrece una alternativa de prueba razonable. A continuación se sugieren algunas aplicaciones:

  • Junto con las pruebas de incrementalidad de otros canales, estos datos se utilizarán para calibrar los modelos de marketing mix y para la futura asignación de presupuestos a los distintos canales de pago. 
  • Junto con otros métodos de atribución (por ejemplo, último clic, multitoque, lineal), podemos calcular el denominado escalar de incrementalidad, es decir, la relación entre la incrementalidad basada en la experimentación y la atribución. Esto puede proporcionar a los profesionales del marketing una regla heurística para ajustar la magnitud de los resultados de atribución existentes. 

Este enfoque también puede aplicarse a otros casos de uso. Por ejemplo, en el caso de otras plataformas publicitarias que no dispongan de la infraestructura de experimentación necesaria para realizar las pruebas A/B clásicas, podemos considerar un experimento switch-back adaptado en el que asignemos diferentes ventanas de tiempo en lugar de usuarios individuales al tratamiento frente al control cuando se cumplan las condiciones indicadas a continuación:

  • La métrica del éxito puede medirse directamente en un plazo razonable desde la intención hasta la acción.
  • Tendencia similar entre la base histórica y el periodo de pruebas
  • Aleatorización robusta de las unidades experimentales 

Agradecimientos

Gracias a todos los miembros del equipo interfuncional por el apoyo para revisar este post y aportar comentarios constructivos, Jessica Lachs, Gunnard Johnson, Athena Dai, David Kastelman, Sylesh Volla, Ruyi Ding, Ariel Jiang, Juan Orduz y Ezra Berger.

Sobre los autores

  • Kanhua Pan

  • Yingying Chen

Trabajos relacionados

Ubicación
Toronto, ON
Departamento
Ingeniería
Ubicación
San Francisco, CA; Sunnyvale, CA
Departamento
Ingeniería
Ubicación
San Francisco, CA; Mountain View, CA; Nueva York, NY; Seattle, WA
Departamento
Ingeniería
Ubicación
San Francisco, CA; Sunnyvale, CA; Seattle, WA
Departamento
Ingeniería
Ubicación
San Francisco, CA; Sunnyvale, CA; Seattle, WA
Departamento
Ingeniería