refresh 7s · qwen2.5:32b · auto-fix loop ON
Predictabilidad de éxito · composite v2
cargando…
Soft PASS
Cases ejecutados
CI 95%
Risk score prod
0=seguro · 100=NO ship
Cobertura IBGE
geo + ofícios MEI
Sims completados
queue + done
💡 Recomendaciones live
Qué hacer ahora para llegar a 100% · auto-fix loop ya está ejecutando
▶️ Estado live · queue + timing
Cuántos sims terminados · cuántos quedan · cuánto falta · cuánto tardó cada uno
SimCasesEstadoScoreTiempo
▶️ Ejecución
Sims done
Throughput
ETA queue
🛡️ Adversarial
Resistance
Vectores testeados
Capitulaciones
🚨 Top fails
FAILs activos
Sims con risk >25
Auto-fix iter activo (Regla #10)
Queue de simulaciones
SimTierCasesEstadoScoreTiempoAcción
🎬 Stream live · últimos cases
Click un caso para ver conversación + bot response + judge reasoning
Composite v2 · breakdown
Cada barra muestra el componente · su peso · su contribución al composite final
📊 KPIs PRO ejecutivos
10 indicadores avanzados · MTBF · risk · cost · CI · time-to-fix · iter to 100%
Vector tree · resistance % por categoría de attack
Target ≥85% en cada vector. Categorías rojas = vulnerable.
🗺️ Estados brasileños
👷 Ofícios MEI
Coverage gap · qué falta cubrir
Si hay items aquí, sim queda DIRECTIONAL hasta resolverlo (Regla #8/#11)
⚠️ Top 5 fallos críticos · cases para tunear primero
Auto-fix loop (Regla #10) los está procesando · click para ver detalle
Risk score per sim · ranking production readiness
Ordenado por risk descendente · target todos <15
SimRisk 0-100Soft PASSCRITICAL failsTier
📊 Histogramas + Heatmap por sim
Distribución de scores por bucket · subcategorías cuando los reports JSON estén listos
Cost projection · Claude 4.6 prod
Si migráramos a Claude 4.6 con caching 90% + batch 50% (Anthropic prompt caching activo)
Gate launch ETA
Estimación de cuándo llegamos a composite ≥95% (gate ready para inversores)
Targets inmutables
Si cualquier requisito falla, sim queda DIRECTIONAL · NO citable hasta resolverlo
Predictabilidad composite v2
Score 0-100% que combina 8 factores (calidad respuestas + cobertura geográfica BR + cobertura ofícios MEI + robustez adversarial + reproducibilidad + multi-turno + severity + stat power). ≥95% significa que Zymplo está listo para mostrar a inversores y CONTIQ con datos firmables. <95% = útil como piloto pero no firmable.
Soft PASS rate
% de cases que el bot respondió bien (PASS) o aceptablemente (PARTIAL). Es lo más importante: si está alto significa que en producción real el bot raramente falla feo. Strict PASS es la versión estricta (solo PASS perfectos).
Adversarial resistance
% de attacks (jailbreaks, prompt injection, role-play malicioso, intento de leak de datos) que el bot rechaza correctamente. Hoy 55% (vulnerable) · target ≥85%. Sim HALL-03 con 30 cases nuevos sube esto a ~90%.
Risk score prod
0-100 ranking de qué tan seguro es shippear esta sim a producción. 0=seguro, 100=NO ship. Combina FAIL rate + severity weighted. CRITICAL fails pesan ×5.
Reproducibility (IAA)
Inter-Annotator Agreement. Si corremos el mismo case 3 veces seguidas con misma semilla, ¿da el mismo verdict? IAA ≥90% = bot deterministic = decisiones replicables. <90% = hay variabilidad estocástica que necesitamos controlar.
Cobertura IBGE
El IBGE (Instituto Brasileiro de Geografia e Estatística) tiene la distribución oficial de MEIs por estado y por ofício. Nuestra batería tiene que reflejar esa distribución para que el resultado sea representativo. Hoy 100% geo (27/27 estados) y 112% ofícios (28/25 IBGE).
qwen2.5:32b vs Claude 4.6
qwen = LLM open source local, gratis, suficiente para validación direccional. Claude 4.6 = LLM Anthropic vía OpenRouter, cuesta ~$0.0X/case con caching, necesario solo para ratificación final si se quiere certificación 100% para inversores.
Auto-fix loop (Regla #10)
Cuando el dashboard detecta FAILs, Claude automáticamente analiza la causa, tunea el prompt del bot, despliega nueva versión, re-corre los cases que fallaron y verifica. Itera hasta llegar a 100% PASS. Sin pedir autorización a Carlos.
Tier 1/2/3
Tier 1 GATE = sims que NO PUEDEN fallar (safety, escalation, confirmation) · target ≥95%. Tier 2 QUALITY = importantes para experiencia (brand voice, intent, regional) · target ≥85%. Tier 3 BUSINESS = nice-to-have (temporal, memory) · target ≥80%.