Conceptos

Vocabulario de ArtificialQA

El glosario mínimo que tienes que conocer para moverte por la plataforma. Cada concepto se conecta con los demás en un flujo coherente.

Mapa mental rápido

Los conceptos se organizan alrededor de 4 etapas:

Diseño → Test Cases → Test Suites → Test Plans (la unidad ejecutable).
Ejecución → corres un Test Plan N veces; cada corrida es un Run. Necesitas una Agent Connection previa.
Evaluación / Análisis → tomas una ejecución (Run) y evalúas sus respuestas con los evaluadores que elijas.
Reportes → consolida una o varias evaluaciones; exportable y opcionalmente mejorado con IA.

1. Diseño

Test Case

Test Case (TC)

La unidad mínima. Define un input que se le envía al agente de IA y la respuesta esperada (o las características que esa respuesta debería cumplir).

Dos modalidades:

Simple Q&A: una pregunta y una respuesta esperada.
Conversational: múltiples turnos en una misma conversación, simulando un diálogo real.

Cada TC puede llevar asserts determinísticos (verificaciones que no dependen de IA: contains, regex, JSON Schema) y/o ser evaluado por evaluadores LLM.

Test Suite

Test Suite (TS) — suma de TC

Una agrupación de Test Cases. Permite organizar por tema (FAQs, escalación, datos sensibles), por criticidad, por release, o como prefieras. Un mismo TC puede estar en varias suites.

Test Plan

Test Plan (TP) — suma de TS, la unidad ejecutable

La unidad ejecutable reutilizable. Lo creas con un nombre y descripción, y luego le asignas una o más Test Suites. Al momento de ejecutarlo eliges la Agent Connection para esa corrida específica.

2. Ejecución

Agent Connection

Agent Connection — requisito previo

La configuración que le dice a ArtificialQA cómo hablarle a tu agente de IA. Es un objeto aparte del Test Plan: el mismo TP se puede ejecutar contra distintas conexiones (dev, staging, producción).

Dos protocolos:

HTTP/API: tu agente de IA expone un endpoint que recibe un mensaje y devuelve una respuesta.
Browser (Playwright): tu agente de IA está embebido en una página web; ArtificialQA corre Chromium headless en sus workers.

Más detalle en Conexiones.

Run / Execution

Run (Execution) — una corrida concreta

Una ejecución concreta de un Test Plan contra una Agent Connection elegida. Cada Run queda registrado como un snapshot inmutable: las respuestas del agente de IA, los tiempos y los logs quedan fijados aunque después cambies los Test Cases o la Connection.

Snapshot inmutable, pero ejecuciones no determinísticas: el snapshot de cada Run no se modifica, pero si vuelves a correr el mismo TP las respuestas pueden ser distintas — hay un LLM detrás del agente de IA. Lo que queda fijo es lo que pasó en cada corrida específica.

3. Evaluación / Análisis

Evaluator

Evaluator — puntúa una ejecución

Sobre una ejecución (Run), activas los evaluadores que quieras y puntúan las respuestas. ArtificialQA tiene dos capas:

Determinísticos (asserts): exact match, regex, contains, JSON Schema, numeric range, response time, keyword presence, classification. No usan IA.
LLM Evaluators (17 calibrados): un modelo que califica en una dimensión específica (comparación, completitud, concisión, formalidad, sesgo, tono, empatía, seguridad, contenido inapropiado, manejo de errores, ambigüedad, fluidez, exactitud de datos, alucinación, escalación, idioma, consistencia).

Cada evaluador devuelve un score entre 0 y 1 (decimal) y una justificación textual. Sobre un mismo Run puedes correr varias evaluaciones en distintos momentos — cada una queda guardada como snapshot independiente. Como hay un LLM detrás, dos evaluaciones del mismo run pueden dar scores distintos.

Score Override

Score Override — único caso editable

Si no estás de acuerdo con un score puntual de un evaluador, puedes editarlo manualmente. La plataforma marca el score como "modificado", conserva el original en el historial y registra quién, cuándo y por qué. La auditoría queda intacta. El listado de todos los overrides está en Execution → Score Overrides.

Es la única edición posible sobre los datos de una corrida; las respuestas del agente de IA y los logs no se pueden modificar.

4. Reportes

Report

Evaluation Report

El resultado consolidado de una o varias evaluaciones sobre una corrida:

Score general y pass rate.
Performance por evaluador.
Detalle de cada test case con justificación textual.
Casos fallidos destacados para inspección.
Exportación a PDF.

En plan Enterprise se suma el Reporte mejorado con IA: resumen ejecutivo automático y análisis textual por evaluador.

Cómo se conectan los conceptos

🧭 Recorrido típico. Diseñas Test Cases → los agrupas en una Test Suite → armas un Test Plan con esa suite → configuras la Agent Connection contra la que vas a probar → ejecutas el TP (esto crea un Run) → activas los Evaluators sobre el Run → miras el Evaluation Report.

Otros términos útiles

Project: un agrupamiento lógico dentro de tu organización. Cada proyecto tiene sus propios Test Cases, Suites, Plans y Runs.
Organization: el espacio aislado de tu empresa. Multi-tenant: ningún dato cruza entre organizaciones.
Vista de revisión: después de generar casos con IA o importarlos, quedan en una vista donde puedes editar cada uno y decidir su destino — enviarlo a tu catálogo de Test Cases, mandarlo a una Test Suite específica, o descartarlo. Mantiene un humano en el loop.
Industry: el dominio que eliges al generar casos con IA (15 industrias soportadas).
Hard / Soft assertion: los asserts determinísticos pueden ser hard (fallan el test si no se cumplen) o soft (no fallan, pero quedan registrados como observación).

Próximo paso

Con esto puedes moverte por la herramienta sin perderte. Cuando quieras profundizar, las siguientes secciones explican cómo usar cada concepto en la práctica.