Synthetische Daten für Machine Learning

Was sind synthetische Daten?

Synthetische Daten beziehen sich auf künstlich generierte Proben aus echten Fällen mit dem Ziel, statistisch beschreibende Merkmale beizubehalten. Ein synthetischer Datensatz zielt darauf ab, echte Daten zu ersetzen, um die Datensicherheit zu gewährleisten oder um einen Datensatz mit mehr Proben als das Original zu generieren. Synthetische Daten sind keine erfundenen Daten, so wie ein restauriertes Bild kein neues Bild ist. Durch die Analyse synthetischer Daten können wir Muster entdecken, die in echten Daten möglicherweise nicht offensichtlich sind. Wenn wir beispielsweise ein Bild mit niedriger Auflösung haben und sich in der unteren rechten Ecke ein Objekt befindet, das wir nicht klar identifizieren können, kann ein Wiederherstellungstool uns helfen zu erkennen, dass es sich bei dem Objekt um einen Hund handelt. In ähnlicher Weise können Algorithmen zur Generierung von synthetischen Daten uns helfen, die Art der Beziehungen zwischen Variablen in tabellarischen Daten zu verstehen, selbst wenn diese Beziehungen in den Originaldaten nicht klar sind.

 Warum sind synthetische Daten für NextBrain wichtig?

Die Hauptbarriere für die Einführung von Machine Learning-Technologien für einen signifikanten Prozentsatz der Nutzer sind Daten. Um effektiv zu sein, verlangen diese Technologien ein erhebliches Datenvolumen. Um genaue Vorhersagen zu treffen, benötigen die meisten Algorithmen, die zur Lösung von Klassifikations- oder Regressionsproblemen verwendet werden, eine riesige Menge an Daten. Allerdings haben nicht alle Nutzer Zugang zu einer großen Menge an Daten (was als „Big Data“ bekannt ist). Im Gegenteil, die Mehrheit der Nutzer, sei es aus der Geschäftswelt, einer beruflichen Tätigkeit oder der Wissenschaft, hat mit einer begrenzten Menge an Daten zu tun. Der Zugang zu Daten ist teuer und zeitaufwändig. 
Um diese Barriere zu überwinden, müssen den Nutzern mehr Daten zur Verfügung stehen. Es gibt zwei mögliche Lösungen dafür: Die erste besteht darin, den Zugang zu externen Datenquellen bereitzustellen, die die Nutzer nutzen können, um Entscheidungen zu treffen. Dies setzen wir bereits bei NextBrain um, indem wir mehrere Connectoren bereitstellen. Die zweite ist, wörtlich gesprochen, die Daten zu erfinden. Aber wie werden wir die Daten “erfinden”? Es ist möglich, dies zu tun. Es gibt jetzt Technologien, die dies ermöglichen. Wir sagen, dass wir eine Tabelle mit Daten haben, die ein Problem beschreibt, das wir lösen möchten. Wir sagen, die Tabelle hat 20 Zeilen und 10 Spalten. Machine Learning-Technologien benötigen mehr Daten als dies. Mit diesen Daten kann ein Algorithmus nur so viel tun, und die Schlussfolgerungen, die wir ziehen können, werden fragwürdig sein. Aber denken Sie daran, eine andere Tabelle basierend auf dieser zu erstellen, mit 300 Zeilen und 10 Spalten. Jetzt können wir dank dieser realistischere Ergebnisse von Algorithmen erhalten. 
 
 
 

Wie machen wir diese Magie?

Generative Adversarial Networks, oder GANs, sind die Technologie, die im Herzen dieser generativen Anwendungen steht. GANs wurden 2014 von Ian Goodfellow eingeführt. Die Idee war, zwei separate neuronale Netzwerke zu konstruieren und sie gegeneinander antreten zu lassen. Das erste neuronale Netzwerk beginnt damit, neue Daten zu generieren, die statistisch ähnlich den Eingabedaten sind. Das zweite neuronale Netzwerk hat die Aufgabe zu identifizieren, welche Daten künstlich erstellt wurden und welche nicht. Beide Netzwerke konkurrieren kontinuierlich miteinander: das erste versucht, das zweite zu täuschen, und das zweite versucht herauszufinden, was das erste tut. Das Spiel endet, wenn das zweite Netzwerk nicht mehr in der Lage ist zu ‘diskriminieren’, ob die Daten aus dem Output des ersten Netzwerks oder aus den Originaldaten stammen. Wir nennen das erste Netzwerk Generator und das zweite Netzwerk Diskriminator.
 
   Bei NextBrain haben wir unsere eigene GAN-Architektur auf der Grundlage eines Wasserstein GAN (Arjovsky et al, 2017) veröffentlicht. Wir haben eine spezielle Architektur entwickelt, die für das Training mit einer sehr kleinen Anzahl von Proben geeignet ist. 
 Der kritischste Schritt bei der Generierung synthetischer Daten besteht darin, die Ähnlichkeit oder “Nähe” zu echten Daten zu überprüfen. Bei NextBrain haben wir große Anstrengungen unternommen, um modernste Werkzeuge zu entwickeln, die diesen Vergleich durchführen, um sicherzustellen, dass unsere synthetischen Daten Originaldatensamples mit Vertrauen ersetzen können (Marin, J., 2022).  
Literaturverzeichnis: 
 
    Arjovsky, M., Chintala, S., & Bottou, L. (2017). Wasserstein generative adversarial networks. Internationale Konferenz über Machine Learning, 214–223.
   Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., & Bengio, Y. et al. (2014). Generative adversarial nets. Fortschritte in der neuronalen Informationsverarbeitungssysteme, 27.
   Marin, J. (2022). Eine experimentelle Studie zur Bewertung synthetischer tabellarischer Daten. arXiv preprint arXiv:2211.10760.   Arjovsky, M., Chintala, S., & 
Logo NextBrain

Wir haben die Mission, NextBrain zu einem Raum zu machen, in dem Menschen gemeinsam mit den fortschrittlichsten Algorithmen arbeiten, um überlegene, bahnbrechende Einblicke aus Daten zu liefern. Wir lieben No-Code Machine Learning

Büros

Europa
Paseo de la Castellana, Nr. 210, 5. bis 8. Etage
28046 Madrid, Spanien
Telefonnummer: Spanien Flagge +34 91 991 95 65

Australien
Ebene 1, Pier 8/9, 23 Hickson Road
Walsh Bay, NSW, 2000
Telefonnummer: Spanien Flagge +61 410 497229

Öffnungszeiten (CET)

Montag—Donnerstag: 8:00–17:30 Uhr
Freitag: 8:00–14:00 Uhr


EMEA, Amerika

Live-Chat-Support
Kontaktieren Sie unser Vertriebsteam