¿Qué métricas mirar primero al auditar un agente de IA?

Tres, en orden: acciones ejecutadas en 24 horas, cuántas pidieron aprobación humana y cuántas terminaron en error o salida inesperada.

¿Con qué frecuencia hay que auditar un agente de IA en una pyme?

Una revisión diaria corta (10-30 min) para detectar fallos del día y una semanal de una hora para ver tendencias: rutinas, errores repetidos o decisiones que crecen.

¿Quién audita al agente de IA en una empresa de 15 personas?

El responsable del proceso al que sirve el agente, no IT: es quien sabe qué es normal en ese contexto. IT entra solo ante un problema técnico.

¿Esta auditoría diaria sustituye a la auditoría regulatoria del AI Act?

No. La diaria es operativa; la regulatoria del AI Act es formal y puntual. Pero una buena auditoría diaria deja casi hecha la regulatoria: registro, responsable y procedimiento.

Cómo auditar tu agente de IA cada día

¿Qué pasa el día que descubres que llevas un mes sin saber qué hace tu agente?

Auditar lo que decide un agente de IA cada día es una conversación que se repite. Un directivo nos cuenta que tiene un agente en producción desde hace unas semanas, que el equipo parece contento y que las cosas, en general, van bien. Cuando le preguntamos qué hizo el agente ayer, hay una pausa. Y después, casi siempre, la misma respuesta: no lo sé exactamente, habría que mirarlo.

Esa pausa es el síntoma. No es un problema técnico, es un problema de gobierno. Un agente que actúa sobre cosas que importan en tu empresa, y del que no se sabe lo que hizo ayer, está fuera de control. No fuera de control en el sentido catastrófico, fuera de control en el sentido más mundano: nadie está mirando, y lo que nadie mira tiende a degradarse.

Este artículo describe la pieza que cierra el círculo de los mecanismos de control de un agente IA. Si los controles estructurales (permisos, aprobaciones, registro) son los cimientos, la auditoría diaria es la inspección rutinaria. Sin esa inspección, los cimientos sirven de poco.

¿En qué se diferencia la auditoría operativa de la regulatoria?

Antes de seguir, una distinción que ahorra mucho ruido. Cuando una empresa pequeña oye la palabra auditoría aplicada a IA, suele pensar en una de dos cosas: o un papel formal que pide una autoridad, o una herramienta cara que prometen los proveedores. Ninguna de las dos es lo que aquí importa.

La auditoría regulatoria existe (el AI Act la define, en sus diferentes intensidades según el sistema), pero ocurre en momentos puntuales: al desplegar, al cambiar algo significativo, cuando una autoridad lo pide. Si quieres entender en qué punto está esa normativa después del aplazamiento reciente, conviene revisar las obligaciones del AI Act para pymes.

La auditoría operativa, en cambio, ocurre cada día. Es lo que un director de almacén hace cuando entra por la mañana y mira el cuadro de control de la jornada anterior. No es un acto formal, es una rutina. Y no la hace IT: la hace quien manda en el proceso al que sirve el agente. Es una diferencia que cambia toda la conversación, porque la mayoría de directivos creen que esto no les toca a ellos. Sí les toca. De hecho, es lo único que les toca.

¿En qué consiste la regla de los 30 minutos?

El criterio operativo que aplicamos con clientes pyme es simple. Si la auditoría diaria de tu agente de IA no cabe en 30 minutos, está mal diseñada. Una auditoría que requiere una hora cada mañana no se hace; una que requiere cinco minutos no detecta nada. Los 30 minutos son la franja donde la rutina se mantiene y la información es suficiente.

Para que esa franja funcione, hace falta que el agente deje su trabajo registrado de forma que se pueda leer en lotes, no acción por acción. Eso no es opcional: es la condición que hace posible la auditoría. Si el agente no deja registro, no hay auditoría diaria, hay arqueología de logs cada vez que algo va mal. Es la diferencia entre revisar y reconstruir.

El registro mínimo que recomendamos cuando ponemos un agente en producción cubre cuatro columnas por acción: qué hizo, cuándo, sobre qué entidad y con qué información decidió. Cuatro columnas. Esa estructura permite responder las tres preguntas que vienen ahora, porque cada pregunta es una lectura distinta del mismo registro.

Pregunta 1: ¿cuánto hizo el agente ayer?

La primera pregunta es la más sencilla y la más reveladora. Cuántas acciones ejecutó el agente en las últimas 24 horas, repartidas por categoría. No hace falta más detalle: solo el contador.

Lo que esa cifra te dice no es si el agente trabajó bien. Te dice si trabajó como un día normal o si trabajó como un día raro. La diferencia entre los dos casos es la primera señal útil. Un agente que clasifica 80 pedidos en un día y de repente clasifica 240 no necesariamente está fallando: puede haber habido una promoción, una incidencia del proveedor, o cualquier evento que justifique la subida. Pero el directivo que ve el 240 quiere saber por qué, y la pregunta surge en 30 segundos si la cifra está visible.

El error que vemos más a menudo aquí es no haber definido qué es normal. Si nunca te has parado a mirar un día tranquilo cualquiera y a anotar las cifras esperadas, no tienes referencia para detectar un día raro. La primera semana de un agente en producción se dedica precisamente a eso: a construir esa línea base con números reales, no con estimaciones.

El umbral mental. No hace falta dashboards sofisticados. Una hoja de cálculo con la cifra de ayer al lado de la media de los últimos siete días es suficiente. Cuando el dato de ayer se aleja más de un 30% de la media, el directivo entra a mirar. Cuando no, sigue con su día. Esto es control sostenible: trabajo cuando hace falta, no trabajo perpetuo por desconfianza.

Pregunta 2: ¿qué pidió permiso y qué pasó?

La segunda pregunta concentra el riesgo donde está. Si el agente está bien diseñado, los pasos críticos (los que tocan dinero, comprometen a la empresa o son irreversibles) requieren aprobación humana antes de ejecutarse. La pregunta es: cuántas aprobaciones pidió ayer y cómo se resolvieron.

Aquí lo que se mira no es solo el número, es el patrón. Hay tres patrones que aparecen y los tres dicen algo:

Aprobaciones que se aprueban en segundos. Si todas las solicitudes se resuelven en menos de un minuto y con un sí automático, lo más probable es que la aprobación se haya convertido en un trámite. Cuando eso pasa, la aprobación deja de proteger porque ya nadie la lee. Síntoma típico: el responsable aprueba en lote desde el móvil camino al café.
Aprobaciones que se quedan colgadas. Si hay solicitudes de aprobación con más de 24 horas sin respuesta, el flujo del agente se atasca por el cuello de botella humano. Tampoco es un problema del agente, es un problema de proceso: o sobra carga sobre el responsable, o el listado de pasos críticos es demasiado amplio.
Aprobaciones rechazadas o modificadas. Cuando un responsable rechaza o modifica una propuesta del agente, es información de alto valor. Significa que el agente propuso algo que no procedía. Si eso ocurre una vez al mes, anécdota; si ocurre varias veces a la semana sobre la misma categoría, el agente necesita un ajuste y el responsable lo está absorbiendo con su trabajo.

Si la herramienta de aprobación es el correo, una columna que diga "aprobado / rechazado / modificado / sin respuesta" basta. Si es una bandeja en una herramienta de gestión, mejor todavía. Lo que no puede pasar es que nadie sume al final del día cuántas hubo y cómo terminaron, porque esa suma es el indicador más directo de salud del agente.

Pregunta 3: ¿dónde se atascó o salió por la tangente?

La tercera pregunta es la que casi nadie hace y la que más explica. Cuántas veces el agente terminó una acción con error, con salida inesperada o con respuesta evasiva (los no he podido, los no encuentro la información, los requiere intervención manual).

El error técnico puro (la API que no respondió, la conexión que falló) es ruido y se descarta rápido. Lo interesante son las dos categorías intermedias. Una salida inesperada es el agente haciendo algo que el responsable no esperaba, aunque no haya petado nada. Una respuesta evasiva es el agente reconociendo que no sabe seguir. Las dos son señales tempranas de que algo se está moviendo.

Por ejemplo: un agente que clasifica pedidos empieza a marcar más pedidos como "categoría no identificada" de lo habitual. Técnicamente no hay error, todo funciona. Operativamente, está pasando algo: el catálogo cambió, entró un cliente nuevo con productos distintos o la fuente de datos perdió calidad. Sin mirar esa cifra a diario, el directivo se entera del problema un mes después, cuando alguien le pregunta por qué hay tantos pedidos pendientes de revisar manualmente. Con la cifra a la vista, se entera el día dos.

Esto conecta con una idea más amplia sobre diseñar IA con criterio humano: el agente bien hecho admite que no sabe, y deja constancia. Un agente que nunca se atasca es un agente que está improvisando, y el directivo necesita poder distinguir las dos cosas.

¿Cómo es la plantilla mínima de auditoría? Una página, tres bloques

Las tres preguntas se montan sobre una plantilla muy simple. Una página de informe diario, generada automáticamente desde el registro estructurado del agente, dividida en tres bloques. Esto es lo que aplicamos cuando ponemos un agente para un cliente.

Bloque A: ¿cómo registrar el volumen del día?

Acciones totales ejecutadas en las últimas 24 horas.
Desglose por categoría principal (las tres o cuatro más frecuentes).
Comparación con la media de los siete días previos, expresada en porcentaje.

Bloque B: ¿cómo registrar las aprobaciones humanas?

Solicitudes de aprobación generadas ayer.
Aprobadas, rechazadas, modificadas y sin respuesta.
Tiempo medio de resolución.

Bloque C: ¿cómo registrar atascos y salidas raras?

Errores técnicos puros (se reportan a IT, no al directivo).
Salidas inesperadas con breve descripción de la categoría.
Respuestas evasivas (el agente no supo seguir).

El informe lo recibe el responsable del proceso cada mañana, por correo o en la herramienta interna que use el equipo. Si los tres bloques entran dentro de lo esperado, la auditoría dura cinco minutos: una mirada y a otra cosa. Si algún bloque tiene una señal rara, los 30 minutos se ocupan en bajar a detalle. Esa elasticidad es lo que hace sostenible la rutina.

¿Quién audita al agente en una empresa pequeña?

En una pyme con cinco a treinta personas, esto se resuelve con un solo nombre apuntado al lado del agente. La persona que manda en el proceso es la que audita. No el responsable de IT (que entra solo cuando hay un fallo técnico que el responsable del proceso no puede resolver), no un comité, no el CEO (salvo que sea él quien manda directamente en ese proceso). Una persona, identificada por nombre, con cinco a 30 minutos asignados cada mañana en su agenda.

Esa asignación es la decisión que más se subestima al desplegar un agente. Una empresa que no la toma acaba con el agente en producción y la auditoría diluida entre todos, lo que en la práctica significa que la hace nadie. Y un agente que nadie audita es un agente al que su empresa renunció a controlar sin haberlo decidido conscientemente.

Si en este momento no puedes responder con un nombre a la pregunta quién audita al agente, es señal de que falta esa decisión. Es la conversación más corta y más útil que se puede tener con el equipo después de poner un agente en producción: en cinco minutos queda resuelto y el control pasa a existir de verdad.

¿Para qué sirve la revisión semanal? El patrón que la diaria no ve

La auditoría diaria detecta el día raro. La auditoría semanal detecta lo que ningún día raro revela por sí solo: las tendencias. Aprobaciones que se vuelven automáticas por costumbre. Errores que se repiten siempre el mismo día de la semana. Categorías de decisión que crecen sin haberlo decidido. Patrones de uso que indican que el agente está siendo aprovechado para algo distinto de lo que se diseñó.

La revisión semanal cuesta una hora a la semana, idealmente un viernes por la tarde o un lunes por la mañana, y la hace la misma persona que hace la diaria. La diferencia es que en lugar de mirar 24 horas, mira siete días seguidos. Y en lugar de buscar excepciones, busca tendencias.

Aquí también el responsable tiene que tener permiso, y permiso interno explícito, para pausar al agente si algo no le cuadra. Esa autoridad es parte del diseño. Sin ella, la revisión semanal es informativa y nada más; con ella, la revisión semanal es operativa. La diferencia es enorme, y suele ser la frontera entre las empresas que aprovechan un agente y las que conviven con un agente que se va degradando despacio. Si te interesa el otro lado de esa moneda, conviene mirar qué pasa sin supervisión humana.

¿Cuándo no merece la pena auditar a diario?

Honestidad operativa. La auditoría diaria que aquí describo tiene sentido cuando el agente toca cosas que importan: dinero, clientes, registros legales, decisiones operativas con impacto. Si tienes un agente que solo resume documentos internos para tu uso personal, o que ordena el correo en carpetas, la auditoría diaria es desproporcionada. Una revisión semanal basta, y a veces ni eso.

La pregunta para decidir es directa: ¿el agente puede provocar un daño que tarde más de un día en detectarse por otros medios? Si la respuesta es sí, auditoría diaria. Si la respuesta es no, semanal o mensual. Lo que no funciona es la postura intermedia de vamos viendo: ese vamos viendo es lo que produce las pausas incómodas con las que abríamos el artículo. Si la situación, además, te lleva a dudar de la decisión de fondo, conviene revisar cuándo NO usar IA en una empresa, porque la auditoría no salva un caso que no debería haber arrancado.

¿Cuál es el criterio que aplica Ailitica?

Cuando ponemos un agente en producción para un cliente, la plantilla de auditoría diaria está definida antes del arranque. No después. La conversación sobre quién audita, qué se mira y cuánto tiempo se dedica forma parte del diseño, no del soporte post-implantación. Si esa conversación no se ha tenido, no se arranca: el agente se queda en pruebas hasta que esté.

El motivo es el mismo de siempre. Un agente sin auditoría diaria no es un agente más barato, es un agente aparentemente más barato. La factura llega cuando algo va mal y nadie se ha enterado, y la factura es siempre mayor que las horas que cuesta montar la rutina al principio. Lo razonable es invertir poco al inicio para que el control sea posible después.

Si quieres revisar si tu agente actual genera un informe diario auditable y si tienes asignada la persona que lo mira, escríbenos a [email protected]. Te ayudamos a montar la rutina en una mañana y, si te falta el registro estructurado debajo, también te decimos por dónde empezar.

Este artículo describe una plantilla operativa de auditoría aplicable a la mayoría de pymes con un agente de IA en producción. No constituye asesoramiento técnico, legal ni regulatorio. Cada caso real requiere un análisis específico del flujo, los sistemas implicados y el contexto del equipo.

Cómo auditar lo que tu agente de IA decide cada día (sin doctorado en IT)

¿Qué pasa el día que descubres que llevas un mes sin saber qué hace tu agente?

¿En qué se diferencia la auditoría operativa de la regulatoria?

¿En qué consiste la regla de los 30 minutos?

Pregunta 1: ¿cuánto hizo el agente ayer?

Pregunta 2: ¿qué pidió permiso y qué pasó?

Pregunta 3: ¿dónde se atascó o salió por la tangente?

¿Cómo es la plantilla mínima de auditoría? Una página, tres bloques

Bloque A: ¿cómo registrar el volumen del día?

Bloque B: ¿cómo registrar las aprobaciones humanas?

Bloque C: ¿cómo registrar atascos y salidas raras?

¿Quién audita al agente en una empresa pequeña?

¿Para qué sirve la revisión semanal? El patrón que la diaria no ve

¿Cuándo no merece la pena auditar a diario?

¿Cuál es el criterio que aplica Ailitica?

Preguntas frecuentes

Monta la rutina de auditoría diaria antes de que la pidas con prisa