Vocabulario de ArtificialQA
El glosario mínimo que tienes que conocer para moverte por la plataforma. Cada concepto se conecta con los demás en un flujo coherente.
Mapa mental rápido
Los conceptos se organizan alrededor de 4 etapas:
- Diseño → Test Cases → Test Suites → Test Plans (la unidad ejecutable).
- Ejecución → corres un Test Plan N veces; cada corrida es un Run. Necesitas una Agent Connection previa.
- Evaluación / Análisis → tomas una ejecución (Run) y evalúas sus respuestas con los evaluadores que elijas.
- Reportes → consolida una o varias evaluaciones; exportable y opcionalmente mejorado con IA.
1. Diseño
Test Case (TC)
La unidad mínima. Define un input que se le envía al agente de IA y la respuesta esperada (o las características que esa respuesta debería cumplir).
Dos modalidades:
- Simple Q&A: una pregunta y una respuesta esperada.
- Conversational: múltiples turnos en una misma conversación, simulando un diálogo real.
Cada TC puede llevar asserts determinísticos (verificaciones que no dependen de IA: contains, regex, JSON Schema) y/o ser evaluado por evaluadores LLM.
Test Suite (TS) — suma de TC
Una agrupación de Test Cases. Permite organizar por tema (FAQs, escalación, datos sensibles), por criticidad, por release, o como prefieras. Un mismo TC puede estar en varias suites.
Test Plan (TP) — suma de TS, la unidad ejecutable
La unidad ejecutable reutilizable. Lo creas con un nombre y descripción, y luego le asignas una o más Test Suites. Al momento de ejecutarlo eliges la Agent Connection para esa corrida específica.
2. Ejecución
Agent Connection — requisito previo
La configuración que le dice a ArtificialQA cómo hablarle a tu agente de IA. Es un objeto aparte del Test Plan: el mismo TP se puede ejecutar contra distintas conexiones (dev, staging, producción).
Dos protocolos:
- HTTP/API: tu agente de IA expone un endpoint que recibe un mensaje y devuelve una respuesta.
- Browser (Playwright): tu agente de IA está embebido en una página web; ArtificialQA corre Chromium headless en sus workers.
Más detalle en Conexiones.
Run (Execution) — una corrida concreta
Una ejecución concreta de un Test Plan contra una Agent Connection elegida. Cada Run queda registrado como un snapshot inmutable: las respuestas del agente de IA, los tiempos y los logs quedan fijados aunque después cambies los Test Cases o la Connection.
Snapshot inmutable, pero ejecuciones no determinísticas: el snapshot de cada Run no se modifica, pero si vuelves a correr el mismo TP las respuestas pueden ser distintas — hay un LLM detrás del agente de IA. Lo que queda fijo es lo que pasó en cada corrida específica.
3. Evaluación / Análisis
Evaluator — puntúa una ejecución
Sobre una ejecución (Run), activas los evaluadores que quieras y puntúan las respuestas. ArtificialQA tiene dos capas:
- Determinísticos (asserts): exact match, regex, contains, JSON Schema, numeric range, response time, keyword presence, classification. No usan IA.
- LLM Evaluators (17 calibrados): un modelo que califica en una dimensión específica (comparación, completitud, concisión, formalidad, sesgo, tono, empatía, seguridad, contenido inapropiado, manejo de errores, ambigüedad, fluidez, exactitud de datos, alucinación, escalación, idioma, consistencia).
Cada evaluador devuelve un score entre 0 y 1 (decimal) y una justificación textual. Sobre un mismo Run puedes correr varias evaluaciones en distintos momentos — cada una queda guardada como snapshot independiente. Como hay un LLM detrás, dos evaluaciones del mismo run pueden dar scores distintos.
Score Override — único caso editable
Si no estás de acuerdo con un score puntual de un evaluador, puedes editarlo manualmente. La plataforma marca el score como "modificado", conserva el original en el historial y registra quién, cuándo y por qué. La auditoría queda intacta. El listado de todos los overrides está en Execution → Score Overrides.
Es la única edición posible sobre los datos de una corrida; las respuestas del agente de IA y los logs no se pueden modificar.
4. Reportes
Evaluation Report
El resultado consolidado de una o varias evaluaciones sobre una corrida:
- Score general y pass rate.
- Performance por evaluador.
- Detalle de cada test case con justificación textual.
- Casos fallidos destacados para inspección.
- Exportación a PDF.
En plan Enterprise se suma el Reporte mejorado con IA: resumen ejecutivo automático y análisis textual por evaluador.
Cómo se conectan los conceptos
Otros términos útiles
- Project: un agrupamiento lógico dentro de tu organización. Cada proyecto tiene sus propios Test Cases, Suites, Plans y Runs.
- Organization: el espacio aislado de tu empresa. Multi-tenant: ningún dato cruza entre organizaciones.
- Vista de revisión: después de generar casos con IA o importarlos, quedan en una vista donde puedes editar cada uno y decidir su destino — enviarlo a tu catálogo de Test Cases, mandarlo a una Test Suite específica, o descartarlo. Mantiene un humano en el loop.
- Industry: el dominio que eliges al generar casos con IA (15 industrias soportadas).
- Hard / Soft assertion: los asserts determinísticos pueden ser hard (fallan el test si no se cumplen) o soft (no fallan, pero quedan registrados como observación).
Próximo paso
Con esto puedes moverte por la herramienta sin perderte. Cuando quieras profundizar, las siguientes secciones explican cómo usar cada concepto en la práctica.