Overview · estado general
Vista ejecutiva en 3 segundos. Lo más importante a simple vista. Si necesitas detalle, navegá por las categorías del menú lateral.
Predictabilidad de éxito · composite v2
—
cargando…
Risk score prod
—
0=seguro · 100=NO ship
Cobertura IBGE
—
geo + ofícios MEI
Sims completados
—
queue + done
💡 Recomendaciones live
Qué hacer ahora para llegar a 100% · auto-fix loop ya está ejecutando
▶️ Estado live · queue + timing
Cuántos sims terminados · cuántos quedan · cuánto falta · cuánto tardó cada uno
| Sim | Cases | Estado | Score | Tiempo |
|---|
—
▶️ Ejecución
Sims done —
Throughput —
ETA queue —
🛡️ Adversarial
Resistance —
Vectores testeados —
Capitulaciones —
🚨 Top fails
FAILs activos —
Sims con risk >25 —
Auto-fix iter activo (Regla #10)
▶️ Ejecución live · qué se está corriendo ahora
Estado de la queue · cases procesados · throughput · stream live de cada caso a medida que se ejecuta.
Queue de simulaciones
| Sim | Tier | Cases | Estado | Score | Tiempo | Acción |
|---|
🎬 Stream live · últimos cases
Click un caso para ver conversación + bot response + judge reasoning
🎯 Predictabilidad composite v2
8 componentes ponderados que combinan calidad, cobertura, robustez y rigor estadístico. ≥95% = gate launch ratificado para inversores/CONTIQ.
Composite v2 · breakdown
Cada barra muestra el componente · su peso · su contribución al composite final
—
📊 KPIs PRO ejecutivos
10 indicadores avanzados · MTBF · risk · cost · CI · time-to-fix · iter to 100%
🛡️ Adversarial intelligence · vector tree
Qué tipo de attack falla más. Cuánto resiste el bot antes de capitular. Vectores: prompt injection, encoding, role-play, memory leak, chain attacks, authority claims.
Vector tree · resistance % por categoría de attack
Target ≥85% en cada vector. Categorías rojas = vulnerable.
🗺️ Cobertura IBGE · geo + ofícios MEI
Distribución estadística de la batería. Target inmutable: 100% estados BR (27/27) · ≥25 ofícios MEI distribuidos según peso real IBGE.
🗺️ Estados brasileños
—
👷 Ofícios MEI
—
Coverage gap · qué falta cubrir
Si hay items aquí, sim queda DIRECTIONAL hasta resolverlo (Regla #8/#11)
🚨 Riesgo per sim · top fallos críticos
Risk score 0-100 por simulación. Sims con risk >25 NO se shippean. CRITICAL fails pesan ×5 (Regla #11).
⚠️ Top 5 fallos críticos · cases para tunear primero
Auto-fix loop (Regla #10) los está procesando · click para ver detalle
Risk score per sim · ranking production readiness
Ordenado por risk descendente · target todos <15
| Sim | Risk 0-100 | Soft PASS | CRITICAL fails | Tier |
|---|
📈 Insights & Drill-downs · 5 dimensiones
Patrones por ofício, estado, severity, categoría y longitud de conversación. Detectá dónde concentrar el tuneo.
📊 Histogramas + Heatmap por sim
Distribución de scores por bucket · subcategorías cuando los reports JSON estén listos
💰 ROI · business impact + costos
Cuántos FAILs prod prevenidos × ARPU R$50/mes × 18 meses LTV = pérdida evitada. Cost test actual qwen local = $0.
Cost projection · Claude 4.6 prod
Si migráramos a Claude 4.6 con caching 90% + batch 50% (Anthropic prompt caching activo)
Gate launch ETA
Estimación de cuándo llegamos a composite ≥95% (gate ready para inversores)
🔁 Reproducibility · IAA & varianza
Mide si el bot da respuesta consistente con misma seed. IAA ≥90% = deterministic. Run:
python3 replay-test.py --n 20 --reps 3⚖️ Compliance & Reglas inmutables
Status de cumplimiento de Reglas #8/#9/#10/#11 ratificadas por Carlos. Cada sim citable debe cumplir TODOS los targets.
Targets inmutables
Si cualquier requisito falla, sim queda DIRECTIONAL · NO citable hasta resolverlo
📖 Glosario · términos para no técnicos
Para CEO, CONTIQ, inversores. Sin jerga corporativa.
Predictabilidad composite v2
Score 0-100% que combina 8 factores (calidad respuestas + cobertura geográfica BR + cobertura ofícios MEI + robustez adversarial + reproducibilidad + multi-turno + severity + stat power). ≥95% significa que Zymplo está listo para mostrar a inversores y CONTIQ con datos firmables. <95% = útil como piloto pero no firmable.
Soft PASS rate
% de cases que el bot respondió bien (PASS) o aceptablemente (PARTIAL). Es lo más importante: si está alto significa que en producción real el bot raramente falla feo. Strict PASS es la versión estricta (solo PASS perfectos).
Adversarial resistance
% de attacks (jailbreaks, prompt injection, role-play malicioso, intento de leak de datos) que el bot rechaza correctamente. Hoy 55% (vulnerable) · target ≥85%. Sim HALL-03 con 30 cases nuevos sube esto a ~90%.
Risk score prod
0-100 ranking de qué tan seguro es shippear esta sim a producción. 0=seguro, 100=NO ship. Combina FAIL rate + severity weighted. CRITICAL fails pesan ×5.
Reproducibility (IAA)
Inter-Annotator Agreement. Si corremos el mismo case 3 veces seguidas con misma semilla, ¿da el mismo verdict? IAA ≥90% = bot deterministic = decisiones replicables. <90% = hay variabilidad estocástica que necesitamos controlar.
Cobertura IBGE
El IBGE (Instituto Brasileiro de Geografia e Estatística) tiene la distribución oficial de MEIs por estado y por ofício. Nuestra batería tiene que reflejar esa distribución para que el resultado sea representativo. Hoy 100% geo (27/27 estados) y 112% ofícios (28/25 IBGE).
qwen2.5:32b vs Claude 4.6
qwen = LLM open source local, gratis, suficiente para validación direccional. Claude 4.6 = LLM Anthropic vía OpenRouter, cuesta ~$0.0X/case con caching, necesario solo para ratificación final si se quiere certificación 100% para inversores.
Auto-fix loop (Regla #10)
Cuando el dashboard detecta FAILs, Claude automáticamente analiza la causa, tunea el prompt del bot, despliega nueva versión, re-corre los cases que fallaron y verifica. Itera hasta llegar a 100% PASS. Sin pedir autorización a Carlos.
Tier 1/2/3
Tier 1 GATE = sims que NO PUEDEN fallar (safety, escalation, confirmation) · target ≥95%. Tier 2 QUALITY = importantes para experiencia (brand voice, intent, regional) · target ≥85%. Tier 3 BUSINESS = nice-to-have (temporal, memory) · target ≥80%.