Qu'est-ce que les données synthétiques ?
Les données synthétiques se réfèrent à des échantillons générés artificiellement à partir de cas réels dans le but de conserver des caractéristiques descriptives statistiques. Un ensemble de données synthétiques vise à remplacer les données réelles afin de préserver la confidentialité des données ou de générer un ensemble de données avec plus d'échantillons que l'original. Les données synthétiques ne sont pas des données inventées, tout comme une image restaurée n'est pas une nouvelle image. En analysant les données synthétiques, nous pouvons découvrir des motifs qui peuvent ne pas être apparents dans les données réelles. Par exemple, si nous avons une image basse résolution et qu'il y a un objet dans le coin inférieur droit que nous ne pouvons pas identifier clairement, un outil de restauration peut nous permettre de reconnaître que l'objet est un chien. De la même manière, les algorithmes de génération de données synthétiques peuvent nous aider à comprendre la nature des relations entre les variables dans des données tabulaires, même si ces relations ne sont pas claires dans les données originales.
Pourquoi les données synthétiques sont-elles importantes pour NextBrain ?
La principale barrière à l'adoption des technologies de machine learning par un pourcentage significatif d'utilisateurs est la donnée. Pour être efficaces, ces technologies nécessitent un volume important de données. Pour obtenir des prédictions précises, la plupart des algorithmes utilisés pour résoudre des problèmes de classification ou de régression requièrent une énorme quantité de données. Cependant, tous les utilisateurs n'ont pas accès à un grand volume de données (ce que l'on appelle le "Big Data"). Au contraire, la majorité des utilisateurs, qu'ils proviennent du monde des affaires, d'une activité professionnelle ou du milieu académique, traitent avec une quantité limitée de données. Accéder aux données est coûteux et chronophage.
Pour surmonter cette barrière, plus de données doivent être disponibles pour les utilisateurs. Il existe deux solutions possibles pour cela : la première consiste à fournir un accès à des sources de données externes que les utilisateurs peuvent utiliser pour prendre des décisions. Nous mettons déjà cela en œuvre chez NextBrain en fournissant plusieurs connecteurs. La seconde est, littéralement parlant, d'inventer les données. Mais comment allons-nous « inventer » les données ? Il est possible de le faire. Il existe maintenant des technologies qui le permettent. Nous disons que nous avons une feuille de calcul de données qui décrit un problème que nous voulons résoudre. Nous disons que le tableau a 20 lignes et 10 colonnes. Les technologies de machine learning nécessitent plus de données que cela. Avec ces données, tout algorithme ne peut faire que jusqu'à un certain point, et les conclusions que nous pouvons tirer seront discutables. Mais envisageons de créer un autre tableau basé sur celui-ci, avec 300 lignes et 10 colonnes. Maintenant, nous pouvons obtenir des résultats plus réalistes des algorithmes grâce à cela.
Comment faisons-nous cette magie ?
Les Réseaux Antagonistes Génératifs, ou GANs, sont la technologie au cœur de ces applications génératives. Les GANs ont été introduits par Ian Goodfellow en 2014. L'idée était de concevoir deux réseaux neuronaux séparés et de les opposer. Le premier réseau neuronal commence par générer de nouvelles données qui sont statistiquement similaires aux données d'entrée. Le second réseau neuronal a pour tâche d'identifier quelles données sont artificiellement créées et lesquelles ne le sont pas. Les deux réseaux rivalisent continuellement l'un avec l'autre : le premier essaie de tromper le second, et le second essaie de comprendre ce que fait le premier. Le jeu se termine lorsque le second réseau n'est pas capable de ‘discriminer’ si les données proviennent de la sortie du premier réseau ou des données originales. Nous appelons le premier réseau générateur et le second réseau discriminateur.
Chez NextBrain, nous avons publié notre propre architecture GAN basée sur un Wasserstein GAN (Arjovsky et al, 2017). Nous avons développé une architecture spéciale adaptée à un entraînement avec un très petit nombre d'échantillons.
L'étape la plus critique dans la génération de données synthétiques est de vérifier la similarité ou la "proximité" par rapport aux données réelles. Chez NextBrain, nous avons fait un effort considérable pour développer des outils de pointe afin d'effectuer cette comparaison, afin de nous assurer que nos données synthétiques peuvent remplacer les échantillons de données originales en toute confiance (Marin, J., 2022).
Références :
Arjovsky, M., Chintala, S., & Bottou, L. (2017). Réseaux antagonistes génératifs de Wasserstein. Conférence internationale sur l'apprentissage automatique, 214–223.
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., & Bengio, Y. et al. (2014). Réseaux antagonistes génératifs. Advances in neural information processing systems, 27.
Marin, J. (2022). Une étude expérimentale sur l'évaluation des données tabulaires synthétiques. arXiv preprint arXiv:2211.10760. Arjovsky, M., Chintala, S., &