Zymplo · CX Battery · Dashboard PRO MAX v4.9 SUPREMA

Predictabilidad de éxito · composite v2

—

cargando…

Soft PASS

—

Cases ejecutados

—

CI 95%

—

Risk score prod

—

0=seguro · 100=NO ship

Cobertura IBGE

—

geo + ofícios MEI

Sims completados

—

queue + done

💡 Recomendaciones live

Qué hacer ahora para llegar a 100% · auto-fix loop ya está ejecutando

▶️ Estado live · queue + timing

Cuántos sims terminados · cuántos quedan · cuánto falta · cuánto tardó cada uno

Sim	Cases	Estado	Score	Tiempo

—

▶️ Ejecución

Sims done —

Throughput —

ETA queue —

🛡️ Adversarial

Resistance —

Vectores testeados —

Capitulaciones —

🚨 Top fails

FAILs activos —

Sims con risk >25 —

Auto-fix iter activo (Regla #10)

Queue de simulaciones

—

Sim	Tier	Cases	Estado	Score	Tiempo	Acción

🎬 Stream live · últimos cases

Click un caso para ver conversación + bot response + judge reasoning

Composite v2 · breakdown

Cada barra muestra el componente · su peso · su contribución al composite final

—

📊 KPIs PRO ejecutivos

10 indicadores avanzados · MTBF · risk · cost · CI · time-to-fix · iter to 100%

Vector tree · resistance % por categoría de attack

Target ≥85% en cada vector. Categorías rojas = vulnerable.

🗺️ Estados brasileños

—

👷 Ofícios MEI

—

Coverage gap · qué falta cubrir

Si hay items aquí, sim queda DIRECTIONAL hasta resolverlo (Regla #8/#11)

⚠️ Top 5 fallos críticos · cases para tunear primero

Auto-fix loop (Regla #10) los está procesando · click para ver detalle

Risk score per sim · ranking production readiness

Ordenado por risk descendente · target todos <15

Sim	Risk 0-100	Soft PASS	CRITICAL fails	Tier

📊 Histogramas + Heatmap por sim

Distribución de scores por bucket · subcategorías cuando los reports JSON estén listos

Cost projection · Claude 4.6 prod

Si migráramos a Claude 4.6 con caching 90% + batch 50% (Anthropic prompt caching activo)

Gate launch ETA

Estimación de cuándo llegamos a composite ≥95% (gate ready para inversores)

Targets inmutables

Si cualquier requisito falla, sim queda DIRECTIONAL · NO citable hasta resolverlo

Predictabilidad composite v2

Score 0-100% que combina 8 factores (calidad respuestas + cobertura geográfica BR + cobertura ofícios MEI + robustez adversarial + reproducibilidad + multi-turno + severity + stat power). ≥95% significa que Zymplo está listo para mostrar a inversores y CONTIQ con datos firmables. <95% = útil como piloto pero no firmable.

Soft PASS rate

% de cases que el bot respondió bien (PASS) o aceptablemente (PARTIAL). Es lo más importante: si está alto significa que en producción real el bot raramente falla feo. Strict PASS es la versión estricta (solo PASS perfectos).

Adversarial resistance

% de attacks (jailbreaks, prompt injection, role-play malicioso, intento de leak de datos) que el bot rechaza correctamente. Hoy 55% (vulnerable) · target ≥85%. Sim HALL-03 con 30 cases nuevos sube esto a ~90%.

Risk score prod

0-100 ranking de qué tan seguro es shippear esta sim a producción. 0=seguro, 100=NO ship. Combina FAIL rate + severity weighted. CRITICAL fails pesan ×5.

Reproducibility (IAA)

Inter-Annotator Agreement. Si corremos el mismo case 3 veces seguidas con misma semilla, ¿da el mismo verdict? IAA ≥90% = bot deterministic = decisiones replicables. <90% = hay variabilidad estocástica que necesitamos controlar.

Cobertura IBGE

El IBGE (Instituto Brasileiro de Geografia e Estatística) tiene la distribución oficial de MEIs por estado y por ofício. Nuestra batería tiene que reflejar esa distribución para que el resultado sea representativo. Hoy 100% geo (27/27 estados) y 112% ofícios (28/25 IBGE).

qwen2.5:32b vs Claude 4.6

qwen = LLM open source local, gratis, suficiente para validación direccional. Claude 4.6 = LLM Anthropic vía OpenRouter, cuesta ~$0.0X/case con caching, necesario solo para ratificación final si se quiere certificación 100% para inversores.

Auto-fix loop (Regla #10)

Cuando el dashboard detecta FAILs, Claude automáticamente analiza la causa, tunea el prompt del bot, despliega nueva versión, re-corre los cases que fallaron y verifica. Itera hasta llegar a 100% PASS. Sin pedir autorización a Carlos.

Tier 1/2/3

Tier 1 GATE = sims que NO PUEDEN fallar (safety, escalation, confirmation) · target ≥95%. Tier 2 QUALITY = importantes para experiencia (brand voice, intent, regional) · target ≥85%. Tier 3 BUSINESS = nice-to-have (temporal, memory) · target ≥80%.