Presentación del proyecto de código abierto nbsynthetic

nbsynthetic: Una biblioteca de Python simple y robusta para la generación de datos tabulares sintéticos no supervisados.

NextBrain.ai presenta nbsynthetic, un proyecto de código abierto que tiene como objetivo proporcionar una solución simple y estable para la generación de datos tabulares sintéticos no supervisados utilizando una arquitectura de Red Generativa Antagónica (GAN) basada en Keras.

Diseñado para la simplicidad y robustez, nbsynthetic utiliza una arquitectura de GAN no supervisada sencilla y estable construida con Keras. La sintonización específica de los hiperparámetros garantiza la estabilidad del entrenamiento mientras minimiza los costos computacionales.

Ventajas de nbsynthetic
  1. No se requiere un objetivo predefinido: Como una arquitectura no supervisada, nbsynthetic elimina la necesidad de que los usuarios tengan un objetivo predefinido.
  2. Ideal para Conjuntos de Datos Pequeños: Está destinado principalmente a conjuntos de datos pequeños que contienen tanto características continuas como categóricas.
  3. Compatibilidad de CPU: Debido a su simplicidad, los modelos se pueden ejecutar en una CPU.
  4. Preparación de Datos Conveniente: La biblioteca incluye módulos para una rápida preparación de datos de entrada y creación de características.
  5. Pruebas estadísticas y comparación: nbsynthetic ofrece módulos para realizar pruebas estadísticas y comparar datos reales y sintéticos, utilizando la prueba estadística de Discrepancia Máxima de Medias (MMD). Esta prueba mide la distancia entre las medias de dos muestras mapeadas en un espacio de Hilbert de núcleo reproductor (RKHS).
  6. Utilidades de Gráficas: Se incluyen utilidades de gráficas para comparar las distribuciones de probabilidad de los datos originales y sintéticos.

La importancia de la generación de datos sintéticos tabulares. Aunque la generación de datos sintéticos ha ganado popularidad en aplicaciones como la generación de imágenes y voz, el desarrollo de datos tabulares sintéticos ha sido menos ambicioso. Sin embargo, los datos tabulares son el tipo más común de datos en todo el mundo y tienen importantes implicaciones para industrias como los vehículos autónomos, la atención médica y los servicios financieros. Los datos tabulares sintéticos pueden abordar las preocupaciones de privacidad en la industria de la salud, simular conjuntos de datos genómicos sintéticos y facilitar proyectos de investigación que involucren registros médicos de pacientes.

Empoderando a los usuarios de hojas de cálculo Cada día, casi 700 millones de personas utilizan hojas de cálculo para trabajar con pequeñas muestras de datos tabulares. Sin embargo, estos conjuntos de datos a menudo se consideran de mala calidad debido a su incompletud o falta de significancia estadística. Las técnicas de aprendizaje automático, como las GAN, pueden ofrecer valiosos conocimientos y capacidades de toma de decisiones para tales aplicaciones. Desafortunadamente, los avances actuales en ML se centran principalmente en grandes conjuntos de datos, excluyendo a un número significativo de usuarios potenciales que trabajan con pequeños conjuntos de datos. Además, la fiabilidad de los algoritmos de ML aplicados a datos de tamaño de muestra pequeño es una preocupación en la estadística moderna.

Un nuevo GAN tabular

Abordando las Limitaciones de las GANs La tecnología fundamental detrás de nbsynthetic es la Red Generativa Antagónica (GAN). Las GANs constan de dos redes neuronales, el generador y el discriminador, que compiten entre sí. Entrenar ambos modelos simultáneamente puede llevar a inestabilidad y colapso de modo. Para abordar estos problemas, nbsynthetic adopta un enfoque de GAN no condicional. Esta configuración es bastante versátil para los usuarios activos de hojas de cálculo que pueden querer hacer predicciones sobre diferentes características.

Construyendo un GAN Simple y Robusto con nbsynthetic Para garantizar un GAN no supervisado simple y robusto, nbsynthetic incorpora las siguientes consideraciones:

  1. Inicialización: Se utilizan la inicialización de pesos aleatorios y la normalización por lotes para romper la simetría y estabilizar el aprendizaje.
  2. Convergencia: En lugar de utilizar redes convolucionales, nbsynthetic adopta una arquitectura simple y densa adecuada para datos tabulares de tamaño de muestra pequeño.
  3. Funciones de activación: Se utiliza LeakyReLU para los modelos secuenciales del generador y del discriminador. Se emplea una función de activación tanh para el generador, mientras que el discriminador utiliza una función sigmoide.
  4. Optimización: Se emplea el descenso de gradiente estocástico con el optimizador Adam, con una tasa de aprendizaje pequeña y un término de momento reducido para mejorar la estabilidad.
  5. Inyección de Ruido: Inyección de ruido utilizando un vector aleatorio de longitud fija

Puedes encontrar la biblioteca en Github. aquí.

También puedes encontrar una descripción muy comprensible de la biblioteca. aquí

Logo NextBrain

Nuestra misión es hacer de NextBrain un espacio en el que los seres humanos trabajen junto con los algoritmos más avanzados para ofrecer una visión superior de los datos que cambie las reglas del juego. Aprendizaje automático sin código

Oficinas

Europa
Paseo de la Castellana, n.º 210, 5º-8
28046 Madrid, España
Número de teléfono: bandera de españa +34 91 991 95 65

Australia
Nivel 1, Muelle 8/9, 23 Hickson Road
Walsh Bay, NSW, 2000
Número de teléfono: bandera de españa +61 410 497229

Horas de apertura (CET)

Lunes—Jueves: 8:00AM–5:30PM
Viernes: 8:00AM–2:00PM


EMEA, América

Soporte de chat en vivo
Contacte con nuestro equipo de Ventas