Documentación oficial
Bienvenido a ArtificialQA
La plataforma para testear, evaluar y monitorear la calidad de agentes de IA. Automática, reproducible y auditable.
¿Qué problema resuelve?
El testing tradicional asume que una entrada siempre genera la misma salida exacta. Los agentes de IA rompen esa premisa: la misma pregunta puede generar varias respuestas válidas con diferente calidad, tono, precisión o nivel de detalle.
ArtificialQA está diseñada específicamente para ese escenario:
- Generas casos de prueba con IA, los traes de nuestro catálogo público de 25.000 casos curados, los importas de Excel/JSON, o los creas manualmente.
- Los ejecutas de forma automática contra tu agente de IA real (vía HTTP/API o vía navegador).
- Cada respuesta se evalúa con asserts determinísticos y con 17 evaluadores LLM calibrados.
- Obtienes reportes ejecutivos, dashboards de tendencia y snapshots inmutables por ejecución para auditoría y reproducibilidad.
El flujo en 3 módulos
Módulo 01
Generación
Creas los casos que vas a usar.
Con IA por industria, importando Excel/JSON, o manualmente.
Con IA por industria, importando Excel/JSON, o manualmente.
Módulo 02
Ejecución
Corres los casos contra tu agente de IA.
Conexión HTTP/API o navegador con Playwright.
Conexión HTTP/API o navegador con Playwright.
Módulo 03
Evaluación
Cada respuesta se puntúa.
Asserts determinísticos + 17 evaluadores LLM calibrados.
Asserts determinísticos + 17 evaluadores LLM calibrados.
¿Para quién es?
🧪
Equipos de QA
Que quieren escalar el testing de agentes de IA sin sumar horas-persona por release.
💻
Developers
Que necesitan integrar testing automático de respuestas LLM en sus flujos de desarrollo.
🏢
Empresas con agentes de IA en producción
Que requieren control de calidad continuo, trazabilidad por versión y reportes auditables.
¿Cómo empiezo?
Recomendamos seguir esta ruta:
🚀
Quickstart en 5 minutos
Crear cuenta, conectar tu primer agente y obtener tu primer reporte.
🧠
Entender los conceptos
Test Cases, Suites, Plans, Connections, Evaluators y Reportes.
🎯
Cómo se evalúa
Las dos capas de evaluación y los 17 evaluadores LLM.
💰
Planes y precios
Free, Pro y Enterprise. Empieza gratis, sin tarjeta.
El plan Free te permite probar la plataforma sin tarjeta de crédito y sin límite de tiempo. Te alcanza para validar si ArtificialQA encaja en tu flujo de trabajo antes de tomar decisiones.
Características principales
- Generador de casos de prueba con IA por industria. Soportamos 15 industrias (salud, finanzas, e-commerce, seguros, telecom, educación, legal, RR.HH., SaaS, viajes, real estate, food, safety, customer support y general).
- Soporte para casos simples y conversacionales. Test cases con turnos múltiples (multi-turn) o pregunta-respuesta única.
- Dos protocolos de conexión. HTTP/API para agentes de IA con endpoint, o navegador con Playwright para agentes de IA embebidos en sitios web.
- 17 evaluadores LLM calibrados. Comparison, completeness, conciseness, formality, bias, tone, empathy, security, inappropriate content, error handling, ambiguity, fluency, data accuracy, hallucination, escalation, language, consistency.
- Detección automática de PII (Información Personal Identificable). Emails, teléfonos, documentos de identidad y tarjetas de crédito.
- Evaluadores pre-calibrados. Validamos internamente cada evaluador contra datasets de referencia antes de habilitarlo, para garantizar que sus scores sean confiables. Tú no tienes que calibrar nada.
- Reportes exportables a PDF. Resumen ejecutivo, performance por evaluador y detalle de casos fallidos.
- Multi-tenant aislado. Cada organización vive en un compartimento separado; los datos no se cruzan entre clientes.
- Auditoría externa por Nextfense. Pasamos por revisión de seguridad con Nextfense; las recomendaciones fueron consideradas e implementadas.