Experiências de política comercial utilizando modelos factoriais fraccionados
Na DoorDash, esforçamo-nos constantemente por melhorar os nossos processos de experimentação, abordando quatro dimensões-chave, incluindo a velocidade para aumentar o número de experiências que podemos realizar, otrabalho árduo para minimizar os nossos esforços de lançamento e análise, o rigor para garantir um design experimental sólido e análises robustas e eficientes e a eficiência para reduzir os custos associados aos nossos esforços de experimentação.
Aqui apresentamos uma nova estrutura que demonstrou melhorias significativas nas duas primeiras dimensões: velocidade e trabalho. Uma vez que a DoorDash realiza milhares de experiências anualmente que contribuem com milhares de milhões em valor bruto de mercadorias, é fundamental para o nosso sucesso comercial que testemos com rapidez e precisão o maior número possível de hipóteses.
Descobrimos que, ao mesmo tempo que melhoramos o rendimento experimental, também podemos simplificar o esforço de configuração associado. Em determinados domínios, como a gestão de campanhas em CRM, pode ser moroso designar e aplicar políticas comerciais a diferentes segmentos de utilizadores. O esforço tende a ser linearmente correlacionado com o número de políticas a serem testadas; além disso, o processo pode ser propenso a erros devido à necessidade de realizar várias etapas manuais em várias plataformas.
A estrutura que propomos, tal como descrita neste documento, aumentou a velocidade experimental em 267% e reduziu os nossos esforços de configuração em 67%. Descobrimos que os benefícios são geralmente mais pronunciados quando um modelo inclui vários factores, como uma caraterística ou atributo de uma política, e níveis, como o valor de um fator.
In addition to increasing velocity and reducing toil, our framework also provides a mechanism for testing the assumptions underlying an experiment's design, ensuring a consistently high level of rigor.
Testes A/B para otimização de campanhas de CRM
A equipa de marketing de retenção de consumidores pretende construir uma relação duradoura com os clientes desde o primeiro momento em que se envolvem com a DoorDash, apresentando conteúdo de marketing relevante para os levar a regressar. Tal como muitas empresas, utilizamos frequentemente testes A/B para iterar continuamente a nossa melhor política, escolhendo entre o enorme número de opções no nosso espaço de políticas. A Figura 1 abaixo mostra o nosso ciclo de vida típico de experimentação:
Vários desafios reduzem a nossa velocidade e aumentam o esforço necessário para realizar experiências, incluindo:
- Custos de implementação elevados: Ao contrário das experiências web convencionais, se fizéssemos um teste A/B a várias políticas ao mesmo tempo, os custos de implementação da configuração para segmentos de utilizadores aleatórios poderiam ser extremamente elevados.
- Restrições orçamentais: O nosso orçamento de marketing limitado restringe as nossas capacidades de teste. Uma vez que cada política exige uma dimensão mínima de amostra para detetar um efeito, só podemos avaliar um número limitado de políticas.
- Métricas de longo prazo: Muitas métricas cruciais para a nossa avaliação, como a retenção, requerem um período de medição alargado, diminuindo a nossa velocidade.
- Riscos de testes sequenciais: Testar políticas sequencialmente ao longo do tempo expõe as experiências a riscos potenciais, incluindo mudanças nas prioridades da empresa. Isto pode dificultar a implementação de características óptimas e interferir com iterações futuras devido a factores adicionais, como restrições orçamentais e reafectação de recursos.
Devido a estes desafios e a outras questões, só podemos testar e comparar um número limitado de apólices em cada trimestre.
Another challenge worth mentioning is personalization, which we believe is key to making our marketing campaigns relevant and driving better long-term engagement. In a perfect world, we would test all possible policies and run a heterogeneous treatment effect, or HTE, model to identify the best policy for each consumer's historical data. However, because we have only training data with limited policies/campaigns and a small sample size, we are prevented from making the most of an HTE model.
Mantenha-se informado com as actualizações semanais
Subscreva o nosso blogue de Engenharia para receber actualizações regulares sobre todos os projectos mais interessantes em que a nossa equipa está a trabalhar
Please enter a valid email address.
Obrigado por subscrever!
Aplicar a conceção fatorial fraccionada ao espaço das políticas empresariais
Tendo em conta os desafios da duração prolongada das experiências, os elevados custos de instalação e a dificuldade em identificar políticas personalizadas, criámos uma estrutura que utiliza um design fatorial fraccionado para resolver o problema. A seguir, apresentamos uma breve visão geral da intuição da estrutura; os leitores que procuram informações detalhadas são incentivados a explorar o nosso artigo completo no Arxiv.
Step 1) Factorization - break down the hypothesis into factors
Promotion policies traditionally have been treated at the experimentation phase as monolithic units and not as combinations of distinct components. Our framework's first innovation is to break down the campaign policy space into factors to create a foundation for the factorial design framework. In our project, we broke down the policy space into four distinct building blocks: promo spread, discount, triggering timing, and messaging, as shown in Figure 2.
Etapa 2) Aplicar uma conceção experimental fatorial fraccionada para reduzir as variantes na amostra
After creating these four building blocks - one with three levels and the others with two - we have 24 combinations. Recall the setup effort referenced above; there are major operational challenges in setting up such a 24-arm marketing campaign in one shot. To solve this problem, we make assumptions on higher-order interactions, for example no interaction effects. Don't worry; we will test these assumptions later. We then apply fractional factorial design to shrink the number of variants from 24 to eight, which reduces the setup cost by 66%. The different methodologies to conduct fractional factorial design are detailed in the full paper.
Passo 3) Lançar a experiência incluindo uma variante adicional fora da amostra
Depois de seleccionarmos oito variantes na amostra para lançar, seleccionamos intencionalmente uma nona variante que lançaremos ao mesmo tempo. Incluímos uma variante fora da amostra para podermos testar de ponta a ponta os nossos pressupostos sobre os efeitos de interação. É fundamental validar com dados quaisquer suposições feitas com base na nossa intuição comercial.
Etapa 4) Recolher os dados e validar o pressuposto do modelo
Depois de a experiência ser lançada e atingir o tamanho de amostra predeterminado, utilizamos os dados recolhidos para validar o modelo. A um nível elevado, utilizamos os dados das variantes na amostra para prever a métrica na nona variante de validação. Se o modelo estiver correto, a previsão deve estar próxima do valor observado. Discutimos a forma de validação em maior pormenor no nosso documento.
Etapa 5) Estimar o efeito do tratamento para cada fator e política
Após a recolha dos dados e a validação do pressuposto do modelo através da variante fora da amostra, estimamos o efeito do tratamento para cada nível de fator e interação, se incluídos no modelo. Podemos então derivar o efeito do tratamento para todas as permutações possíveis da política promocional.
Passo 6) Utilizar um modelo ML para estimar o efeito heterogéneo do tratamento
Após a análise do efeito médio do tratamento, consideramos as campanhas personalizadas. O teste conjunto que descrevemos no nosso documento ajuda a determinar se a personalização é necessária e quais as características do utilizador que são úteis para a personalização. Se a personalização nos trouxer um valor incremental, podemos aplicar um modelo de aprendizagem automática para aprender o efeito de tratamento heterogéneo. No nosso documento, discutimos duas categorias gerais de modelos e uma forma de ajustar o enviesamento. No nosso exemplo, o modelo HTE pode gerar mais 2% de lucro do que uma única campanha óptima para todos os utilizadores.
Aplicações mais alargadas
Ao dividir as políticas em factores, podemos tirar partido da conceção fatorial para testar mais hipóteses em simultâneo. Ao fazer suposições sobre os efeitos de interação, podemos reduzir o número de variantes na amostra que devem ser implementadas.
No nosso contexto empresarial específico, a estrutura melhorou em relação aos métodos actuais, ajudando-nos a descobrir a política personalizada com um lucro incremental de 5%, ao mesmo tempo que proporcionava uma experimentação 267% mais rápida e custos de configuração 67% mais baixos.
Acreditamos que a estrutura pode ser aplicada de forma mais geral a outras áreas de domínio em que as experiências são retardadas pelo tamanho limitado da amostra e/ou em que os custos de instalação ou configuração aumentam com o número de variantes ou braços a serem testados. Nas nossas próximas etapas, planeamos aplicar a estrutura a outras áreas de domínio na DoorDash e também melhorar e produzir o modelo HTE personalizado. Para aqueles que procuram uma compreensão mais profunda, encorajamos os leitores a aprofundar a nossa pré-impressão no Arxiv.
Agradecimentos
Gostaríamos de agradecer aos nossos parceiros de marketing de retenção, Kristin Mendez, Meghan Bender, Will Stone e Taryn Riemer, por nos terem ajudado a preparar e a lançar as experiências ao longo desta investigação; gostaríamos também de reconhecer os contributos dos colegas da equipa de ciência de dados e de experimentação, especialmente Qiyun Pan, Caixia Huang e Zhe Mai. Por último, gostaríamos de agradecer aos nossos líderes Gunnard Johnson, Jason Zheng, Sudhir Tonse e Bhawana Goel por terem patrocinado esta investigação e nos terem dado orientações ao longo do processo.