Generierung synthetischer Daten für digitale Vermarkter und Markenstrategen

Digitales Marketing und Markenstrategie stellen für Marketer und Strategen erhebliche Herausforderungen dar, angesichts sich wandelnder Trends und Verbraucherbehaviors. Erfolg hängt davon ab, die richtige Zielgruppe mit relevantem Content zu erreichen und Kosten zu optimieren. Allerdings haben nicht alle Marken umfassenden Datenzugang, um ihre Entscheidungen zu informieren. Hier kommt die synthetische Datengenerierung ins Spiel, die begrenzte Proben ergänzt und wertvolle Insights extrahiert.

Die Rolle von Data im Digital Marketing

Daten stärken das digitale Marketing, indem sie Marken ermöglichen, datengestützte Entscheidungen zu treffen und Strategien zu optimieren. Dennoch stellt das Sammeln detaillierter Daten in sich schnell ändernden Kontexten eine Herausforderung dar. Da Marketer oft mit kleinen oder mittelgroßen Datensätzen arbeiten, die an statistischer Signifikanz mangeln, wird die genaue Vorhersage des Kampagnenerfolgs und die Bestimmung des Sättigungspunkts der Werbeausgaben behindert.

Tabellarische Synthetic Data: Das Potenzial freisetzen

Während die Generierung synthetischer Daten in den Bereichen Bild und Text Aufmerksamkeit gewinnt, wird ihre Anwendung auf tabellarische Daten oft übersehen. Tabellarische synthetische Daten, die in Zeilen und Spalten strukturiert sind, bieten enormes Potenzial für digitale Vermarkter und Strategen. Durch den Einsatz von generativen adversarialen Netzwerken (GANs), einer hochmodernen Machine Learning-Technologie, erweitert synthetische Daten die Datensätze und verbessert die „Auflösung“, wodurch zusätzliche Einblicke offenbart werden.

Generative Adversarial Networks (GANs): Ermöglichung der Generierung synthetischer Daten

GANs sind eine leistungsstarke Innovation im Bereich Machine Learning, die zwei neuronale Netzwerke, einen Generator und einen Diskriminator, umfasst, die gegeneinander antreten. Der Generator erstellt neue Datenproben, die statistisch ähnlich zu den Eingabedaten sind, während der Diskriminator zwischen echten und synthetischen Proben unterscheidet. Dieses adversariale Spiel treibt das Training voran und generiert hochqualitative synthetische Daten, die den ursprünglichen Datensatz ähneln.

Verstehen des Sättigungspunkts im digitalen Marketing

Der Sättigungspunkt ist entscheidend im digitalen Marketing, um abnehmende Renditen durch übermäßige Werbeausgaben zu verhindern. Die Werbe-S-Kurve veranschaulicht die Beziehung zwischen Ausgaben und deren Einfluss auf Umsatz, Einnahmen oder Marktanteil. Über einen bestimmten Punkt hinaus führt eine Erhöhung der Ausgaben nicht zu proportionalen Renditen. Die genaue Schätzung des Sättigungspunkts ist herausfordernd, insbesondere bei begrenzten Daten. Synthetische Daten begegnen diesem Problem, indem sie einen größeren Datensatz für die Analyse bereitstellen und präzisere Vorhersagen ermöglichen.

Ein praktischer Anwendungsfall: Nutzung synthetischer Daten

Lassen Sie uns eine neuartige Marke betrachten, die vor zwei Jahren gegründet wurde und verschiedene Werbekampagnen auf Plattformen mit begrenzten Daten durchführt. Zu bestimmen, ob sie den Sättigungspunkt erreicht haben, und die nächsten strategischen Schritte zu planen, ist entscheidend. Die Generierung eines synthetischen Datensatzes aus den ursprünglichen Daten erweitert die Stichprobengröße und bietet Einblicke in den Sättigungspunkt und andere wichtige Kennzahlen.

Mit der Open-Source-Python-Bibliothek nbsynthetic wird von dem NextBrain.ai-Team synthetische Daten aus dem ursprünglichen Datensatz generiert. Ein synthetischer Datensatz mit 2000 Proben wird erstellt, und ein visueller Vergleich zwischen den Original- und synthetischen Daten wird durchgeführt. Darüber hinaus wird ein Machine Learning-Modell, wie ein Random Forest Regressor, auf beiden Datensätzen trainiert, um wichtige Kennzahlen wie den Monthly Recurring Revenue (MRR) vorherzusagen. Die Ergebnisse (Zahlen unten) zeigen, dass das auf synthetischen Daten trainierte Modell eine höhere Stabilität und verbesserte Vorhersagegenauigkeit erreicht im Vergleich zu dem auf den ursprünglichen Daten mit niedriger Stichprobengröße trainierten Modell.

╔═══════════════╗  
     ERGEBNISSE  
╚═══════════════╝  

Ursprüngliche Daten  
-------------  
Punktzahl ohne Cross-Validation = 0.32
Scores mit Kreuzvalidierung = [ 0.19254948 -7.0973158   0.1455913   0.18710539 -0.14113018]

Synthesische Daten
-------------------
Score ohne Kreuzvalidierung = 0.80
Scores mit Kreuzvalidierung = [0.8009446  0.81271862 0.79139598 0.81252436 0.83137774]

Algorithmus mit synthetischen Daten trainiert und mit Originaldaten getestet
-------------------------------------------------------------------
Score mit Kreuzvalidierung Vorhersage = 0.71

Dieser Beitrag wurde ursprünglich in Towards Data Science veröffentlicht. Sie können den Originalbeitrag finden. hier.

Logo NextBrain

Wir haben die Mission, NextBrain zu einem Raum zu machen, in dem Menschen gemeinsam mit den fortschrittlichsten Algorithmen arbeiten, um überlegene, bahnbrechende Einblicke aus Daten zu liefern. Wir lieben No-Code Machine Learning

Büros

Europa
Paseo de la Castellana, Nr. 210, 5. bis 8. Etage
28046 Madrid, Spanien
Telefonnummer: Spanien Flagge +34 91 991 95 65

Australien
Ebene 1, Pier 8/9, 23 Hickson Road
Walsh Bay, NSW, 2000
Telefonnummer: Spanien Flagge +61 410 497229

Öffnungszeiten (CET)

Montag—Donnerstag: 8:00–17:30 Uhr
Freitag: 8:00–14:00 Uhr


EMEA, Amerika

Live-Chat-Support
Kontaktieren Sie unser Vertriebsteam