Datos sintéticos para el aprendizaje automático

¿Qué son los datos sintéticos?

Los datos sintéticos se refieren a muestras generadas artificialmente a partir de casos reales con el objetivo de conservar características estadísticamente descriptivas. Un conjunto de datos sintéticos pretende sustituir a los datos reales para preservar la privacidad de los datos o para generar un conjunto de datos con más muestras que el original. Los datos sintéticos no son datos inventados, del mismo modo que una fotografía restaurada no es una imagen nueva. Al analizar datos sintéticos, podemos descubrir patrones que pueden no ser evidentes en los datos reales. Por ejemplo, si tenemos una foto de baja resolución y hay un objeto en la esquina inferior derecha que no podemos identificar claramente, una herramienta de restauración puede permitirnos reconocer que el objeto es un perro. De forma similar, los algoritmos de generación de datos sintéticos pueden ayudarnos a comprender la naturaleza de las relaciones entre variables en datos tabulares, aunque esas relaciones no estén claras en los datos originales.

 ¿Por qué los datos sintéticos son importantes para NextBrain?

El principal obstáculo para llevar las tecnologías de aprendizaje automático a un porcentaje significativo de usuarios son los datos. Para ser eficaces, estas tecnologías exigen un volumen importante de datos. Para obtener predicciones precisas, la mayoría de los algoritmos utilizados para resolver problemas de clasificación o regresión requieren una enorme cantidad de datos. Sin embargo, no todos los usuarios tienen acceso a una gran cantidad de datos (lo que se conoce como "Big Data"). Por el contrario, la mayoría de los usuarios, ya sean del mundo empresarial, de una actividad profesional o del mundo académico, manejan una cantidad limitada de datos. Acceder a los datos es caro y lleva mucho tiempo. 
Para superar este obstáculo, los usuarios deben disponer de más datos. Para ello hay dos soluciones posibles: la primera es proporcionar acceso a fuentes de datos externas que los usuarios puedan utilizar para tomar decisiones. Esto ya lo hacemos en NextBrain proporcionando varios conectores. La segunda es, literalmente hablando, inventar los datos. Pero, ¿cómo vamos a "inventar" los datos? Es posible hacerlo. Ya existen tecnologías que lo permiten. Digamos que tenemos una hoja de cálculo con datos que describen un problema que queremos resolver. Decimos que la tabla tiene 20 filas y 10 columnas. Las tecnologías de aprendizaje automático requieren más datos que estos. Con estos datos, cualquier algoritmo no puede hacer mucho, y las conclusiones que podamos sacar serán cuestionables. Pero pensemos en crear otra tabla basada en ésta, con 300 filas y 10 columnas. Ahora podemos obtener resultados más realistas de los algoritmos gracias a esto. 
 
 
 

¿Cómo hacemos esta magia?

Las redes generativas adversariales (GAN) son la tecnología en la que se basan estas aplicaciones generativas. Ian Goodfellow introdujo las GAN en 2014. La idea era diseñar dos redes neuronales distintas y enfrentarlas entre sí. La primera red neuronal comienza generando nuevos datos que son estadísticamente similares a los datos de entrada. La segunda red neuronal se encarga de identificar qué datos se han creado artificialmente y cuáles no. Ambas redes compiten continuamente entre sí: la primera intenta engañar a la segunda, y la segunda intenta averiguar qué está haciendo la primera. El juego termina cuando la segunda red no es capaz de "discriminar" si los datos proceden de la salida de la primera red o de los datos originales. Llamamos generador a la primera red y discriminador a la segunda.
 
   En NextBrain hemos lanzado nuestra propia arquitectura GAN basada en una Wassertein GAN (Arjovsky et al, 2017). Hemos desarrollado una arquitectura especial adecuada para ser entrenada con un número muy reducido de muestras. 
 El paso más crítico en la generación de datos sintéticos es comprobar la similitud o "cercanía" con los datos reales. En NextBrain nos hemos esforzado mucho en desarrollar herramientas punteras para realizar esta comparación con el fin de estar seguros de que nuestros datos sintéticos pueden sustituir a las muestras de datos originales con confianza (Marin, J., 2022).  
Referencias: 
 
    Arjovsky, M., Chintala, S., & Bottou, L. (2017). Redes generativas adversariales de Wasserstein. International Conference on Machine Learning, 214-223.
   Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., & Bengio, Y. et al. (2014). Generative adversarial nets. Avances en sistemas de procesamiento de información neural, 27.
   Marin, J. (2022). An experimental study on Synthetic Tabular Data Evaluation. arXiv preprint arXiv:2211.10760. Arjovsky, M., Chintala, S., & 
Logo NextBrain

We are on a mission to make NextBrain a space where humans work together with the most advanced algorithms to deliver superior game changing insight from data. We love No-code Machine Learning

Offices

Europe
Paseo de la Castellana, n.º 210, 5º-8
28046 Madrid, Spain
Número de teléfono: spain flag +34 91 991 95 65

Australia
Level 1, Pier 8/9,23 Hickson Road
Walsh Bay, NSW, 2000
Número de teléfono: spain flag +61 410 497229

Horas de apertura (CET)

Lunes—Jueves: 8:00AM–5:30PM
Viernes: 8:00AM–2:00PM


EMEA, America

Soporte de chat en vivo
Contacte con nuestro equipo de Ventas