In the fast-paced world of food delivery, accurate estimated time of arrival, or ETA, predictions are not just a convenience; they're a critical component of operational efficiency and customer satisfaction. At DoorDash, where we handle over 2 billion orders annually, the challenge of providing accurate ETAs is both complex and essential.
Traditionnellement, nous nous appuyons sur des modèles arborescents pour prévoir les délais de livraison. Si ces modèles produisaient des prévisions raisonnables, ils étaient également limités dans leur capacité à saisir les schémas complexes et les nuances inhérentes à notre réseau de livraison vaste et varié. Au fur et à mesure que nos opérations se développaient et que les attentes des clients évoluaient, nous avons reconnu la nécessité d'une approche plus sophistiquée.
Enter our latest innovation: A cutting-edge ETA prediction model that leverages advanced machine learning techniques to dramatically improve accuracy. By leveraging an Multi-Layer-Perceptron-gated mixture of experts, or MLP-gated MoE, architecture with three specialized encoders - DeepNet, CrossNet, and transformer - we created a model that can adapt to diverse scenarios and learn complex relationships from embeddings and time series data to capture temporal and spatial patterns. Additionally, our new approach also incorporates multitask learning to allow the model to simultaneously predict multiple related outcomes. Finally, we explored novel probabilistic modeling approaches to expand the model's capability to accurately quantify the uncertainty of the ETA forecasts.
Le résultat ? Une amélioration relative remarquable de 20 % de la précision de l'ETA. Ce bond en avant améliore non seulement notre efficacité opérationnelle, mais aussi la fiabilité des ETA que nous fournissons à nos clients.
Nous avons déjà publié un article de blog qui approfondit le contexte commercial et l'espace de problèmes. Dans ce billet, nous nous plongeons dans les détails techniques de notre nouveau système de prédiction de l'heure d'arrivée prévue et illustrons comment chaque composant contribue à son succès ainsi que l'impact de cette nouvelle approche sur notre activité et l'expérience de l'utilisateur.
Qu'est-ce que l'ETA ?
Before jumping into the modeling details, let's take a look at the time of arrival we are trying to estimate.
Heure d'arrivée = heure de création de la commande + durée de la livraison
Dans la figure 1 ci-dessus, nous pouvons voir les éléments qui contribuent à la durée de livraison d'une commande régulière. Même dans les cas les plus simples, il y a au moins trois parties clés : le commerçant, le Dasher et le système DoorDash. Nous pouvons également décomposer le délai de livraison en plusieurs étapes : Affectation et confirmation du Dasher, déplacement vers le commerçant, logistique de ramassage et déplacement vers le consommateur. Compte tenu des différentes parties et étapes, un changement dans l'une d'entre elles peut introduire une variation dans le délai de livraison réel, ce qui nous oblige à utiliser des outils plus performants pour aborder la prédiction.
Embeddings et caractéristiques des séries temporelles
Advanced feature engineering makes up a crucial component of our improved ETA prediction model. Although we kept a number of existing features, we also leveraged neural network embeddings to represent categorical or bucketized continuous inputs, and incorporated time series features, significantly enhancing our model's ability to capture complex patterns and relationships.
Embeddings pour une représentation riche en caractéristiques
We observed strong predictive signals in categorical features with high cardinality. For example, there are many stores on the DoorDash platform and some - for store-specific reasons such as cuisine type, store popularity, or efficiency - have a longer food preparation time than others. Also, restaurant traffic patterns change over the course of a day with meal times drawing the largest crowds and subsequently increasing delivery duration.
We used feature encoding methods to capture category-based patterns such as one-hot encoding, target encoding, and label encoding. However, one-hot encoding cannot scale efficiently for categorical features with high cardinality because of the curse of dimensionality; other encoding methods are not adequate to capture each category's patterns because manual effort is required, often causing the loss of semantic relationships. For example, it's hard for the ETA model to learn similarities between two fast food restaurants when they are compared with other types of restaurants.
To resolve these problems, we introduced embedding into the ETA prediction model. With embeddings, we can convert sparse variables into dense vector representations. At the same time, we improve the generalizability and balance the model's focus on sparse features versus dense features by quantizing and embedding key numerical features. This approach provides such benefits as:
- Flexibilité de la dimensionnalité: La taille de l'intégration est basée sur l'importance de chaque caractéristique catégorielle pour la prédiction de l'ETA plutôt que sur sa cardinalité, comme ce serait le cas avec l'encodage à une touche. Nous avons tendance à utiliser des tailles d'intégration plus petites pour éviter le surajustement et réduire la taille du modèle.
- Capturer les modèles spécifiques à une catégorie: Les embeddings peuvent capturer les modèles intrinsèques et les similitudes entre les catégories, ce qui permet au modèle de comprendre les relations entre plusieurs dimensions ; l'encodage de la cible, l'encodage de la fréquence et l'encodage de l'étiquette ne peuvent capturer que des quantités limitées d'informations.
- Meilleure généralisation: La représentation des caractéristiques denses quantifiées permet au modèle de mieux se généraliser à des valeurs inédites ou rares. Par exemple, certaines valeurs de caractéristiques denses peuvent être extrêmement élevées. Ces valeurs aberrantes peuvent avoir moins d'impact lors de l'inférence car elles seront probablement plafonnées par le seau dans lequel elles tombent ; le seau disposera de nombreuses données d'apprentissage pour trouver sa représentation d'encastrement.
- Flexibilité dans la combinaison des caractéristiques: Les caractéristiques intégrées peuvent facilement être combinées avec d'autres entrées numériques, ce qui permet des interactions plus complexes.
- Réutilisation dans d'autres modèles : L'intégration formée peut être extraite et utilisée comme entrée pour d'autres modèles. Ainsi, les connaissances acquises par un modèle d'ETA peuvent facilement être transférées à d'autres tâches.
Our ETA model learns the embeddings for categorical features such as time buckets, pick-up and drop-off locations in various granularities, store type, item taxonomies, and assignment segments. Figure 2 below shows examples of time embedding and store embedding. In the time embedding example, blue dots represent earlier in the day while red dots are for later. Closer minutes cluster together; In some cases, such as when the end of one day is closely followed by the start of the next day's business, both red and blue dots can be found together. In the store embedding example, blue dots represent the stores that use a more standardized order system while red dots refer to an order system used by smaller merchants. We observe that there are multiple clusters of red dots, which may be a sign that this order system more strongly impacts store efficiency, which has a bearing on delivery time. These embeddings and other parameters are input into the DeepNet and CrossNet encoders to capture both deep non-linear patterns and explicit feature interactions.
There also are other important numerical features, such as travel duration and subtotal of order cart. We transform these continuous features into discrete values via bucketization. This makes our model more robust to outliers because the buckets cap outliers, improving the model's generalization. It also allows for learning complex patterns within each bucket and better captures non-linear relationships. Meanwhile, the original feature values are not discarded, but are also fed to the DeepNet encoder so that we don't lose precision due to discretization, providing flexibility in handling different types of patterns.
Intégration des caractéristiques des séries temporelles
Our ETA model performs well when the overall market dynamic is normal. When there is a shift toward Dasher undersupply, either regionally or in a sub-region, the model's performance drops. This is caused by old features capturing only high-level supply/demand conditions and being volatile to fluctuations. Both make the feature noisier, which makes it harder for our model to learn the pattern well.
Nous avons observé une forte corrélation entre les commandes antérieures et les commandes ultérieures dans une petite fenêtre temporelle. Par exemple, si une région souffre déjà d'une pénurie de Dashers, les commandes passées dans la fenêtre temporelle rapide suivante sont ajoutées à la file d'attente, ce qui entraîne des effets cumulatifs de pénurie. Pour tirer parti de la nature temporelle des délais de livraison, l'intégration de caractéristiques de séries temporelles s'est avérée cruciale pour réagir plus rapidement aux changements dynamiques du système.
Pour transmettre ces informations sur les tendances en temps réel à notre modèle, nous collectons des signaux de séries temporelles à une fréquence de l'ordre de la minute, tels que le volume d'ordres moyen par minute au cours des 30 dernières minutes. Par rapport à la valeur moyenne sur les 30 dernières minutes, cette série temporelle véhicule des informations plus riches sur la dynamique du marché. Étant donné que ce type de caractéristique peut être peu abondant si l'intervalle de temps est petit, nous utilisons la valeur agrégée de l'intervalle de cinq minutes, puis nous ajoutons un encastrement positionnel apprenable. Avec la représentation d'apprentissage du codeur transformateur à partir des données séquentielles, le modèle ETA apprend une représentation de l'instantané contextuel de la dynamique du marché dans la fenêtre temporelle passée.
Nous avons comparé les performances du modèle avec et sans les caractéristiques des séries temporelles et avons constaté que l'amélioration des performances peut être attribuée principalement à une meilleure réactivité aux différentes conditions du marché, en particulier lorsque l'offre de Dashers est largement insuffisante, comme le montre la figure 3 avec une dynamique de réseau plus élevée. Cela suggère que notre modèle s'est mieux adapté aux conditions changeantes au fil du temps, telles que l'évolution des schémas de commande ou le déplacement de la dynamique du réseau.
While this approach offers significant advantages, it comes at a price: increased computational complexity. The feature engineering method and the transformer encoder both contribute to heavier computational loads during training and inference. Thanks to our Machine Learning Platform team's strong support, this is successfully productionized and benefiting our consumers with better-quality ETA predictions.
Comprendre l'architecture des MoE par MLP
We faced several challenges when improving the accuracy of our tree-based ETA model. The model's predictions had less variance than the ground truth, indicating limited expressiveness, which hindered our ability to capture the full complexity and variability of the target variable, especially in the long tail.
En outre, la malédiction de la dimensionnalité a rendu difficile l'identification de divisions significatives, ce qui a conduit à un surajustement et à un sous-ajustement, en particulier avec des caractéristiques peu nombreuses. L'analyse des erreurs a suggéré que l'incorporation d'interactions de caractéristiques et de dépendances temporelles pourrait aider, mais la création manuelle de ces interactions était impossible et le bruit dans les données a aggravé le problème de la dimensionnalité, ce qui a rendu difficile l'extraction de modèles utiles.
At the heart of our improved ETA prediction model lies an MLP-gated MoE architecture that improves the mode's expressiveness and learns various types of information automatically. This approach allows us to leverage the strengths of different neural network structures, each specializing in capturing specific aspects of the complex relationships within our data. The following sections describe the key components of this architecture.
Codeurs parallèles
Comme le montre la figure 4 ci-dessous, notre modèle MoE à base de MLP utilise trois encodeurs parallèles, chacun servant d'expert dans le traitement de différents aspects des données d'entrée :
- Encodeur simple : Ce MLP à une couche sert deux objectifs principaux : convertir l'entrée en une dimension fixe qui facilite l'ajout/la suppression de caractéristiques et normaliser les valeurs des caractéristiques avant de les transmettre aux experts.
- Encodeur DeepNet: Ce réseau neuronal profond traite les entrées à travers plusieurs couches, y compris les caractéristiques numériques, les embeddings et les caractéristiques de séries temporelles agrégées. Il excelle à capturer les interactions générales des caractéristiques et à apprendre des représentations hiérarchiques des données, et il est particulièrement efficace pour comprendre les relations complexes et non linéaires entre diverses caractéristiques d'entrée.†
- Encodeur CrossNet : inspiré par DCN v2 des modèles de recommandation, l'encodeur CrossNet définit des paramètres de croisement apprenables par couche sous forme de matrices de faible rang et incorpore un mélange d'experts avec un mécanisme de gating qui combine de manière adaptative les interactions apprises sur la base de l'entrée. Dans la prédiction de l'ETA, l'entrée de cet expert comprend tous les enchâssements des caractéristiques catégorielles et des caractéristiques numériques tronquées. L'encodeur CrossNet est conçu pour modéliser efficacement les complexités et les interdépendances entre les caractéristiques temporelles, spatiales et d'ordre. Dans le même temps, la profondeur et la complexité des interactions sont limitées par le nombre de couches croisées et le rang des matrices, ce qui permet d'obtenir à la fois un effet régulateur et une meilleure efficacité de calcul.††
- Transformer encoder: Leveraging the power of self-attention mechanisms, the transformer encoder focuses on modeling sequential dependencies and relationships. The input of this expert only includes the time series feature, which is a sequence of signals. If fed only into the DeepNet encoder, our ETA model would capture non-sequential, hierarchical patterns and complex feature interactions but may ignore sequence order information. That's where the transformer encoder comes in; it can learn long-range dependencies and contextual relationships within sequences using self-attention. Temporal dependencies mean that this sequential understanding is helpful for ETA predictions. The ETA model can respond faster to dynamic change if it is exposed to the temporal relationships of volume, delivery cycle, and supply/demand.
Combiner les avis d'experts
Each of these encoders processes different input features, leading to comprehensive learning around various aspects of the information. We bring together the expert opinions from each encoder into a single, rich representation, which is then fed into a multi-layer perceptron to translate the combined insights into an ETA prediction. This simplified architecture differs from a traditional MoE in that it doesn't use a separate gating network to dynamically weight the contributions of each expert. Instead, based on the learned representation from the time series feature, the MLP decoder is aware of the dynamics, so the trained MLP decoder can effectively combine and utilize the outputs from all encoders simultaneously based on different situations. We dropped the explicit gating network because it doesn't provide meaningful incremental performance improvements in ETA predictions.
Cette architecture de MoE à base de MLP nous permet d'exploiter les points forts de différentes structures de réseaux neuronaux tout en conservant un niveau de complexité gérable. L'un des principaux avantages de cette approche réside dans son extensibilité. Elle permet d'incorporer facilement des codeurs supplémentaires ou d'autres composants du modèle sans avoir à revoir la conception du mécanisme de déclenchement. L'architecture peut être adaptée pour gérer l'intégration de nouvelles fonctionnalités, ce qui rend le modèle plus polyvalent pour répondre à l'évolution des exigences ou des modèles de données.
As we continue to explore these avenues, further research into optimizing the integration of different encoders - whether through more sophisticated MLP designs or novel gating mechanisms - could unlock even greater performance gains. Ultimately, this approach positions us to stay ahead of the curve in model development, creating a framework that is not only powerful today but also built for tomorrow's innovations.
Estimation et communication de l'incertitude dans les prévisions d'ETA
Dans le monde de la livraison de produits alimentaires, il est essentiel de fournir des prévisions d'heure d'arrivée précises. Cependant, notre capacité à quantifier et à communiquer l'incertitude associée à ces prévisions est tout aussi importante. C'est là que notre approche probabiliste de la prédiction de l'heure d'arrivée prévue entre en jeu, ajoutant une nouvelle dimension de fiabilité à nos estimations.
Prédictions probabilistes
Les modèles traditionnels d'ETA fournissent souvent une estimation en un seul point, ce qui peut être trompeur dans des environnements très variables comme la livraison de denrées alimentaires. Notre approche va plus loin en mettant en œuvre une couche de base probabiliste pour estimer l'incertitude dans nos prédictions.
Nous avons exploré quatre approches pour déterminer l'incertitude d'une prédiction unique :
- Point estimate: We discovered that there's a consistent trend between the point estimation and the variance of ground truth. Based on this observation, we created a formula to translate point estimate to uncertainty.
- Échantillonnage : Pour chaque prédiction, nous exécutons l'inférence plusieurs fois, en désactivant au hasard des ensembles de nœuds sélectionnés ; nous utilisons ensuite la distribution formée par tous les résultats de l'inférence comme prédiction finale.
- Distribution paramétrique : Nous supposons quelle famille de distribution devrait contenir la vérité de terrain et laissons ensuite le modèle prédire les paramètres.¬†
- Distribution non paramétrique : Nous ne faisons aucune hypothèse sur la distribution elle-même, mais sur la fourchette dans laquelle la vérité de terrain pourrait se situer. L'intervalle possible est segmenté en plusieurs tranches, puis le modèle prédit la probabilité pour chaque tranche. Nous pouvons obtenir une bonne estimation de la fonction de densité de probabilité en ajustant la granularité ou les techniques de lissage.
By incorporating this probabilistic base layer, our model doesn't just predict a single ETA value, but rather a distribution of possible arrival times. This distribution provides valuable information about the uncertainty associated with each prediction.
Les défis de l'apprentissage d'une distribution de Weibull
Dans de précédents articles de blog en 2021 et 2022, nous avons rapporté des preuves solides que le délai de livraison des aliments suit une distribution à longue queue qui ne peut pas être modélisée par des distributions gaussiennes ou exponentielles. Pour saisir la nature de la longue queue et prédire avec précision l'incertitude pour chaque livraison, nous avons choisi de modéliser le délai de livraison des denrées alimentaires par la distribution de Weibull, dont la fonction de distribution de probabilité prend la forme :
The parameters 𝑘, 𝝀, 𝛾 are called the shape, scale, and location of the Weibull distribution and they specify the distribution's tail shape, width, and minimum. The machine learning task is to train AI models to predict these parameters 𝑘, 𝝀, 𝛾 as functions of the input features 𝑋.
When we trained the AI model to maximize the log-likelihood under Weibull distribution, we found that the model sometimes makes unreasonable predictions. For instance, the model may predict a negative location 𝛾 < 𝑂, which means a non-zero chance that the food is delivered within one minute of placing the order, which is impossible in reality. The key challenge is that the parameters 𝑘, 𝝀, 𝛾 appear in the log-likelihood function in highly nonlinear forms
et il est probable que le modèle soit trop proche des données observées.
Régression par intervalles
L'utilisation de la fonction de perte de log-vraisemblance n'ayant pas permis d'obtenir des prédictions précises, nous avons dû modifier la fonction de perte pour faciliter l'apprentissage des paramètres de la distribution de Weibull. Après plusieurs essais, nous avons proposé une approche innovante consistant à utiliser la fonction de survie 𝑆(𝑡), définie comme suit :
Nous avons également exploité la transformation log-log de la fonction de survie, qui prend une forme fonctionnelle beaucoup plus simple :
En utilisant cette fonction de perte, nous avons utilisé les moindres carrés simples pour ajuster les paramètres de la distribution de Weibull 𝑘, 𝝀, 𝛾.
Enfin, nous avons dû dériver la fonction de survie 𝑆(𝑡) à partir des données. La régression par intervalles fournit une solution, en regroupant les livraisons avec des caractéristiques d'entrée similaires 𝑋 et en traçant un histogramme du temps de livraison des aliments 𝐻(𝑡) où la longueur de chaque seau est de six minutes, comme le montre la figure 5 ci-dessous.
The survival function at each time t is derived by simply summing the histogram values for 𝑡' > 𝑡:
Une étude de simulation
Nous avons validé la précision de prédiction de l'approche de régression par intervalles par le biais d'une étude de simulation. Pour chaque livraison avec des caractéristiques d'entrée 𝑋, nous avons utilisé des fonctions fixes pour générer les paramètres de vérité de terrain
Les modèles d'IA doivent apprendre ces fonctions𝑓𝑘,𝑓𝜆,𝑓𝛾. Étant donné chaque ensemble de caractéristiques d'entrée 𝑋, nous simulons 1 million d'observations en tirant des échantillons aléatoires de la distribution de Weibull avec ces paramètres 𝑘, 𝝀, 𝛾. Cela constitue les ensembles de données de formation et de validation.
Ensuite, nous utilisons l'approche de régression par intervalles et formons un réseau neuronal à têtes multiples pour apprendre simultanément les fonctions𝑓𝑘,𝑓𝜆,𝑓𝛾. Nous comparons les paramètres prédits à leurs valeurs de vérité terrain et mesurons la précision des prédictions de distribution.
Nous avons constaté que notre approche de régression par intervalles réduisait considérablement le problème de surajustement et prédisait des valeurs plus précises des paramètres de Weibull. Comme le montre la figure 6, les paramètres de vérité terrain sont 𝑘 = 3,37, 𝜆 = 0,27, 𝛾 = 0,11 tandis que leurs valeurs prédites sont 𝑘 = 3,22, 𝜆 = 0,28, 𝛾 = 0,10. La calibration du modèle, mesurée par l'histogramme PIT (Figure 6), s'en trouve également grandement améliorée.
La régression par intervalles nous permet d'apprendre simultanément les paramètres de forme, d'échelle et de localisation de la distribution de Weibull avec une grande précision. Notre prochaine étape consiste à appliquer l'approche de régression par intervalles à des données de livraison réelles. Nous pourrons alors exploiter les distributions de probabilité prédites pour donner aux clients les heures d'arrivée prévues les plus précises possibles pour la livraison de nourriture, tout en estimant de manière fiable l'incertitude de ces prédictions d'heures d'arrivée prévues.¬†
We are still exploring the best way to predict ETA uncertainties so that we can continue to improve our service's accuracy and transparency. Understanding ETA uncertainty also enables more efficient allocation of Dashers and better route planning. This probabilistic approach represents a significant step forward in our mission to provide the best possible delivery experience for our customers and partners.
Tirer parti de l'apprentissage multitâche pour divers scénarios d'ETA
The consumer journey of placing a delivery order comes in two stages: explore stage and checkout stage, as shown in Figure 7 below. The explore stage is when consumers are browsing through stores without adding any items to their shopping cart yet. At this stage, we can only access features related to store or consumer historical behavior. In the checkout stage, consumers have built an order cart, so we also access item information. We used models trained individually to support these two stages but we found that this can lead to estimation inconsistencies. Big differences surprise consumers in negative ways that undermine their trust in our estimates. Our initial attempt to mitigate this has been to enforce an adjustment on the later stage based on former estimations. This adjustment improved consistency but lowered accuracy. In the later stage, the estimation is usually more accurate because of better data availability. This adjustment is based on estimation from former stages, which introduces reduced accuracy. To address the inconsistency without hurting accuracy, we've implemented a multitask learning approach to develop our ETA prediction model. This strategy allows us to handle different ETA scenarios together, leading to more consistent and efficient predictions. Let's dive into the specifics of our approach and its benefits.
Partagée ou spécifique à une tâche
Coming up with an ETA prediction involves developing both explore and checkout probabilistic predictions. These two tasks have much in common, with labels -- actual delivery duration - shared between both. In the majority of samples, the store- and consumer-related feature values are very close. So we can expect the learned relationship between these features and labels to be similar. Considering the commonalities, it is also reasonable to share parameters representing the relationship between features and labels. But the availability of order information is different; for some real-time information, the checkout stage's feature value distribution can be different and usually has higher correlation with the label. Because of these differences, task-specific modules handle the input difference and convert the final encoded representation into the prediction. Figure 8 shows our training design to balance the task-specific accuracy and knowledge sharing:
Coformation ou formation séquentielle
Nous avons commencé ce voyage par une décision critique entre la co-formation et la formation séquentielle. La co-formation, qui implique la formation simultanée de toutes les tâches à l'aide d'une architecture de modèle partagée, semblait initialement attrayante en raison de son efficacité en termes de temps de formation et d'utilisation des ressources informatiques. Elle offrait également la possibilité d'un partage des connaissances en temps réel entre les tâches. En fin de compte, cependant, nous avons observé une dégradation significative de la précision dans les tâches individuelles, probablement causée par l'interférence entre les tâches.
Nous avons donc opté pour un entraînement séquentiel, où les tâches sont entraînées l'une après l'autre, en gelant les paramètres appris au cours des tâches précédentes et en entraînant les paramètres spécifiques à la tâche pour les efforts ultérieurs. Bien qu'elle prenne plus de temps, cette approche s'est avérée supérieure pour la prédiction de l'ETA. En isolant le processus de formation pour chaque tâche, nous avons pu réduire le bruit provenant des autres tâches et mieux ajuster les paramètres spécifiques à la tâche. Surtout, cette méthode a facilité un transfert d'apprentissage efficace en partageant les paramètres entre les tâches tout en minimisant les interférences.
The sequential training approach that we implemented begins with training our model on checkout tasks. Once this task is well-learned, we freeze all checkout-related parameters and move on to train the light-weighted explore-specific parameters. Because the checkout task has higher priority and richer information, it's better to train the majority of parameters, such as embeddings and expert encoders, on it. Accuracy improvements in the explore task also show the successful knowledge transfer.
Avantages de la formation multitâche
The benefits of this multitask learning approach have been substantial and far-reaching. First and foremost, we've achieved remarkable consistency improvement in ETA predictions across different stages without sacrificing accuracy. Moreover, despite the sequential nature of our training process, this approach has proved more efficient than training separate models for each stage. The shared components provide a warm start for other scenarios, simplifying development and reducing velocity, a crucial consideration at our scale of operations.
Perhaps most excitingly, we've observed significant learning transfer between stages, improving explore task performance through fine-tuning the checkout task model. This opens the possibility of transferring learned patterns to even more tasks, for example using the store embedding for other downstream business problems.
Multitask learning has been a cornerstone in improving our ETA accuracy. By leveraging the strengths of sequential training and the benefits of multitask learning, we've created a more robust, efficient, and accurate ETA prediction system. As we continue to refine and expand our multitask learning approach, we're excited about its potential to further enhance our ETA predictions, ultimately leading to better customer experiences, more efficient partner operations, and smoother Dasher deliveries.
L'avenir de l'estimation des délais de livraison
As we conclude our deep dive into DoorDash's latest advancements in ETA prediction, it's clear that our journey toward more accurate and reliable delivery times has yielded impressive results. The remarkable 20% relative improvement in ETA accuracy stands as a testament to our team's innovative approach and relentless pursuit of excellence. We enhanced precision for both large and small orders, long- and short-distance deliveries, and during both peak and off-peak hours. This advancement directly improves our customer experience by minimizing unexpected delays and preventing premature arrivals. As a result, our customers can now place greater trust in our estimated delivery times, allowing them to plan their schedules with increased confidence.
This significant leap forward is the culmination of several advanced techniques. Our simplified MoE architecture, with its parallel encoders and novel combination approach, has proven adept at handling the diverse scenarios inherent in food delivery. Advanced feature engineering, which leverages embeddings and time series data, has enhanced the model's ability to capture nuanced patterns and temporal dependencies. The multitask learning approach and its sequential training have improved consistency across various ETA scenarios while facilitating valuable knowledge transfer between tasks. Finally, the introduction of probabilistic predictions expands our model's potential by enriching predictions with more probabilistic context.
These advancements have had a profound impact on DoorDash's operations, leading to more efficient logistics, improved customer satisfaction, and a more seamless experience for our entire ecosystem of customers, Dashers, and merchants.
Nonetheless, we recognize that the pursuit of perfect ETAs is an ongoing journey. Looking ahead, we're excited to explore new frontiers in delivery time estimation. Our commitment to innovation remains unwavering. We believe that by constantly improving our ETA predictions, we can create an even better experience for everyone in the DoorDash community. We hope this blog post has provided valuable insights into the complex world of ETA prediction and the innovative solutions we're implementing at DoorDash.
Remerciements
Nous remercions tout particulièrement Vasundhara Rawat, Shawn Liang, Bin Rong, Bo Li, Minh Nguyen, Kosha Shah, Jie Qin, Bowen Dan, Steve Guo, Songze Li, Vasily Vlasov, Julian Panero et Lewis Warne pour avoir rendu possible l'amélioration du modèle ETA.