Le marketing digital et la stratégie de marque présentent des défis significatifs pour les marketeurs et les stratèges face à l'évolution des tendances et des comportements des consommateurs. Le succès dépend d'atteindre le bon public avec un contenu pertinent et d'optimiser les coûts. Cependant, toutes les marques n'ont pas un accès étendu aux données pour éclairer leurs décisions. C'est ici que la génération de données synthétiques joue un rôle crucial, en augmentant les échantillons limités et en extrayant des insights précieux.
Le Rôle des Données dans le Marketing Digital
Les données renforcent le marketing digital, permettant aux marques de prendre des décisions basées sur les données et d'optimiser leurs stratégies. Pourtant, la collecte de données détaillées dans des contextes en évolution rapide pose des défis. En effet, les marketeurs travaillent souvent avec des ensembles de données petits ou moyens manquant de signification statistique, ce qui entrave la prévision précise du succès des campagnes et la détermination du point de saturation des dépenses publicitaires.
Données Synthétiques Tabulaires : Déverrouiller son Potentiel
Alors que la génération de données synthétiques attire l'attention dans les domaines de l'image et du texte, son application aux données tabulaires est souvent négligée. Les données synthétiques tabulaires, structurées en lignes et en colonnes, détiennent un immense potentiel pour les marketeurs numériques et les stratèges. En tirant parti des generative adversarial networks (GANs), une technologie de machine learning à la pointe, les données synthétiques élargissent les ensembles de données et améliorent la « résolution », révélant des insights supplémentaires.
Réseaux Antagonistes Génératifs (GANs) : Autonomiser la Génération de Données Synthétiques
Les GANs sont une innovation puissante en machine learning impliquant deux réseaux de neurones, un générateur et un discriminateur, qui s'affrontent. Le générateur crée de nouveaux échantillons de données statistiquement similaires aux données d'entrée, tandis que le discriminateur distingue les échantillons réels des échantillons synthétiques. Ce jeu adversarial motive l'entraînement, générant des données synthétiques de haute qualité ressemblant à l'ensemble de données original.
Comprendre le point de saturation en marketing digital
Le point de saturation est crucial en marketing digital, empêchant les rendements décroissants dus à des dépenses publicitaires excessives. La courbe S de la publicité illustre la relation entre les dépenses et leur impact sur les ventes, les revenus ou la part de marché. Au-delà d'un certain point, l'augmentation des dépenses ne produit plus de rendements proportionnels. Estimer le point de saturation avec précision est difficile, surtout avec des données limitées. Les données synthétiques répondent à cela en fournissant un ensemble de données plus large pour l'analyse et en permettant des prévisions plus précises.
Un cas d'utilisation pratique : tirer parti des données synthétiques
Considérons une nouvelle marque lancée il y a deux ans, menant diverses campagnes publicitaires sur différentes plateformes avec des données limitées. Déterminer s'ils ont atteint le point de saturation et planifier les prochaines étapes stratégiques est vital. Générer un ensemble de données synthétiques à partir des données originales élargit la taille de l'échantillon et offre des perspectives sur le point de saturation et d'autres métriques clés.
En utilisant la bibliothèque Python open-source nbsynthetic par l'équipe de NextBrain.ai, des données synthétiques sont générées à partir de l'ensemble de données original. Un ensemble de données synthétiques de 2000 échantillons est créé, et une comparaison visuelle entre les données originales et synthétiques est réalisée. De plus, un modèle de machine learning, comme un Random Forest Regressor, est entraîné sur les deux ensembles de données pour prédire des métriques clés telles que le Revenu Mensuel Récurrent (MRR). Les résultats (chiffres ci-dessous) montrent que le modèle entraîné sur les données synthétiques atteint une plus grande stabilité et une meilleure précision prédictive par rapport au modèle entraîné sur les données originales à faible taille d'échantillon.
╔═══════════════╗
RÉSULTATS
╚═══════════════╝
Données originales
-------------
Score sans validation croisée = 0.32
Scores avec validation croisée = [ 0.19254948 -7.0973158 0.1455913 0.18710539 -0.14113018]
Données synthétiques
--------------------
Score sans validation croisée = 0.80
Scores avec validation croisée = [0.8009446 0.81271862 0.79139598 0.81252436 0.83137774]
Algorithme entraîné avec des données synthétiques et testé avec des données originales
-------------------------------------------------------------------
Score avec prédiction de validation croisée = 0.71
Cet article a été initialement publié dans Towards Data Science. Vous pouvez trouver l'original ici ici.