Documentación oficial

Bienvenido a ArtificialQA

La plataforma para testear, evaluar y monitorear la calidad de agentes de IA. Automática, reproducible y auditable.

Crear cuenta gratis → Ver Quickstart en 5 min

¿Qué problema resuelve?

El testing tradicional asume que una entrada siempre genera la misma salida exacta. Los agentes de IA rompen esa premisa: la misma pregunta puede generar varias respuestas válidas con diferente calidad, tono, precisión o nivel de detalle.

ArtificialQA está diseñada específicamente para ese escenario:

Generas casos de prueba con IA, los traes de nuestro catálogo público de 25.000 casos curados, los importas de Excel/JSON, o los creas manualmente.
Los ejecutas de forma automática contra tu agente de IA real (vía HTTP/API o vía navegador).
Cada respuesta se evalúa con asserts determinísticos y con 17 evaluadores LLM calibrados.
Obtienes reportes ejecutivos, dashboards de tendencia y snapshots inmutables por ejecución para auditoría y reproducibilidad.

El flujo en 3 módulos

Módulo 01

✨

Generación

Creas los casos que vas a usar.
Con IA por industria, importando Excel/JSON, o manualmente.

Módulo 02

▶️

Ejecución

Corres los casos contra tu agente de IA.
Conexión HTTP/API o navegador con Playwright.

Módulo 03

📊

Evaluación

Cada respuesta se puntúa.
Asserts determinísticos + 17 evaluadores LLM calibrados.

¿Para quién es?

🧪

Equipos de QA

Que quieren escalar el testing de agentes de IA sin sumar horas-persona por release.

💻

Developers

Que necesitan integrar testing automático de respuestas LLM en sus flujos de desarrollo.

🏢

Empresas con agentes de IA en producción

Que requieren control de calidad continuo, trazabilidad por versión y reportes auditables.

¿Cómo empiezo?

Recomendamos seguir esta ruta:

🚀

Quickstart en 5 minutos

Crear cuenta, conectar tu primer agente y obtener tu primer reporte.

🧠

Entender los conceptos

Test Cases, Suites, Plans, Connections, Evaluators y Reportes.

🎯

Cómo se evalúa

Las dos capas de evaluación y los 17 evaluadores LLM.

💰

Planes y precios

Free, Pro y Enterprise. Empieza gratis, sin tarjeta.

El plan Free te permite probar la plataforma sin tarjeta de crédito y sin límite de tiempo. Te alcanza para validar si ArtificialQA encaja en tu flujo de trabajo antes de tomar decisiones.

Características principales

Generador de casos de prueba con IA por industria. Soportamos 15 industrias (salud, finanzas, e-commerce, seguros, telecom, educación, legal, RR.HH., SaaS, viajes, real estate, food, safety, customer support y general).
Soporte para casos simples y conversacionales. Test cases con turnos múltiples (multi-turn) o pregunta-respuesta única.
Dos protocolos de conexión. HTTP/API para agentes de IA con endpoint, o navegador con Playwright para agentes de IA embebidos en sitios web.
17 evaluadores LLM calibrados. Comparison, completeness, conciseness, formality, bias, tone, empathy, security, inappropriate content, error handling, ambiguity, fluency, data accuracy, hallucination, escalation, language, consistency.
Detección automática de PII (Información Personal Identificable). Emails, teléfonos, documentos de identidad y tarjetas de crédito.
Evaluadores pre-calibrados. Validamos internamente cada evaluador contra datasets de referencia antes de habilitarlo, para garantizar que sus scores sean confiables. Tú no tienes que calibrar nada.
Reportes exportables a PDF. Resumen ejecutivo, performance por evaluador y detalle de casos fallidos.
Multi-tenant aislado. Cada organización vive en un compartimento separado; los datos no se cruzan entre clientes.
Auditoría externa por Nextfense. Pasamos por revisión de seguridad con Nextfense; las recomendaciones fueron consideradas e implementadas.