IA 22 de marzo de 2023

Todo lo que debes saber sobre RAGAS para mejorar la precision de las respuestas de IA

Descubre como RAGAS ayuda a evaluar sistemas RAG y modelos de lenguaje mediante metricas de fidelidad, precision y relevancia de respuesta.

Publicado

22 de marzo de 2023

Tiempo de lectura

4 min de lectura

Autor

NextBrain AI

IA RAG
Todo lo que debes saber sobre RAGAS para mejorar la precision de las respuestas de IA

RAGAS, abreviatura de Retrieval Augmented Generation Application System, es un framework pensado para evaluar con mas rigor el rendimiento de sistemas basados en RAG y de los modelos implicados en ese proceso.

Su valor esta en que permite medir no solo si una respuesta suena bien, sino si realmente esta apoyada por el contexto recuperado y si responde de forma correcta a la pregunta del usuario.

Por que hace falta una herramienta como RAGAS

En una aplicacion RAG intervienen al menos dos bloques principales:

  • la recuperacion de informacion relevante;
  • la generacion de la respuesta final por parte del modelo de lenguaje.

Eso hace que los errores puedan venir de varios sitios. Puede fallar el retrieval, el embedding model, la seleccion de contexto o el modelo generativo. Sin una evaluacion estructurada, es dificil saber que parte del sistema necesita mejora.

Como funciona un flujo RAG

En terminos simples, el proceso suele ser este:

  1. Se ingesta un conjunto de documentos o datos.
  2. Ese contenido se divide en fragmentos.
  3. Los fragmentos se convierten en embeddings y se almacenan.
  4. El usuario formula una pregunta.
  5. El sistema recupera el contexto mas relevante.
  6. El modelo de lenguaje genera una respuesta usando ese contexto.

RAGAS ayuda a evaluar la calidad de ese flujo completo.

Elementos basicos que utiliza RAGAS

Para trabajar con RAGAS suelen intervenir cuatro piezas:

  • question: la pregunta que realiza el usuario;
  • ground_truth: la respuesta correcta o esperada;
  • answer: la respuesta generada por el modelo;
  • contexts: los fragmentos recuperados y entregados como contexto.

Con esos elementos, el framework puede calcular metricas utiles para entender si el sistema esta funcionando con la calidad esperada.

Un ejemplo simple de dataset

from datasets import Dataset

data_samples = {
    'question': ['When was the first Super Bowl?', 'Who won the most Super Bowls?'],
    'answer': ['The first Super Bowl was held on January 15, 1967', 'The New England Patriots have won the most Super Bowls'],
    'contexts': [
        ['The Super Bowl has been played since 1966.', 'It replaced the NFL championship game in February.'],
        ['The Green Bay Packers are based in Green Bay, Wisconsin.', 'The Packers compete in the National Football Conference.'],
    ],
    'ground_truth': [
        'The first Super Bowl was held on January 15, 1967',
        'The New England Patriots have won the Super Bowl a record six times',
    ],
}

dataset = Dataset.from_dict(data_samples)

Cada registro contiene la pregunta, la respuesta producida, el contexto recuperado y la verdad de referencia.

Metricas clave: faithfulness y answer correctness

Dos de las metricas mas utiles dentro de RAGAS son:

  • faithfulness: mide si la respuesta es coherente con el contexto proporcionado;
  • answer correctness: compara la respuesta generada con la respuesta correcta esperada.

La primera sirve para detectar alucinaciones o inferencias no respaldadas. La segunda ayuda a medir precision factual.

Que ventajas aporta

RAGAS resulta especialmente util porque permite:

  • evaluar modelos de lenguaje dentro de un entorno RAG;
  • comparar sistemas de retrieval o embeddings;
  • identificar cuellos de botella en el pipeline;
  • iterar mas rapido sobre calidad de respuesta.

En vez de fiarse de impresiones subjetivas, el equipo puede trabajar con senales mas objetivas para mejorar el sistema.

Conclusiones

Si estas construyendo asistentes con RAG, evaluar bien no es opcional. Necesitas saber si el contexto recuperado es adecuado, si la respuesta es fiel a ese contexto y si el sistema da una respuesta realmente correcta.

RAGAS aporta una forma practica de medir todo eso y, por tanto, de llevar un sistema RAG desde una demo funcional a un producto mucho mas fiable.

En NextBrain AI trabajamos precisamente en capas donde retrieval, contexto y respuesta deben encajar de forma operativa. Herramientas de evaluacion como RAGAS son clave para que la IA no solo responda, sino que responda bien.

Articulos relacionados