Problema
El asistente podía responder de forma general, pero no había una forma objetiva de saber cuándo fallaba.
Caso de uso
`Helpy` es un asistente ficticio de soporte SaaS usado para demostrar cómo un proceso de evaluación establece una línea base, detecta fallos, compara versiones y produce una recomendación práctica.
Resultados
Fidelidad a fuentes
v1 0.07
v2 0.88
Relevancia de respuesta
v1 0.08
v2 0.73
Precisión de contexto
v1 0.00
v2 0.95
El asistente podía responder de forma general, pero no había una forma objetiva de saber cuándo fallaba.
Un conjunto fijo de preguntas y métricas de evaluación comparan la línea base contra una versión con mejor contexto.
El equipo ve qué mejoró, qué sigue fallando y qué debería bloquear una salida a producción.