El frame dominante en contenido español está equivocado
Si uno hace la búsqueda en español sobre IA para empresas, lo que aparece arriba sigue siendo, en su mayoría, lo mismo que hace dos años. Asistente para tu negocio. El ChatGPT de tu empresa. Una IA que sirve para todo. El frame implícito es siempre el mismo: cuanto más generalista, mejor. Cuantas más cosas haga, más valor.
El problema es que ese frame ya no describe lo que las empresas que están ganando con IA están comprando. Las que están moviendo facturación con agentes en producción, las que aparecen en las rondas de inversión que importan, las que han pasado el corte de la primera ola de hype y siguen creciendo, no están comprando asistentes genéricos. Están comprando lo contrario: agentes verticales. Un agente para una cosa, hecha excepcionalmente bien, sobre un dominio acotado.
Y lo interesante es que las cifras que aparecen cuando alguien se molesta en publicar los números son demoledoras. Rogo, un agente vertical para banca de inversión, publicó que su tasa de hallucination cayó del 34,1% al 3,9% al especializar el modelo contra el dominio financiero. No es una mejora marginal: es una mejora de un orden de magnitud que cambia si el agente es utilizable en producción o un juguete caro. La diferencia entre vertical y horizontal no es estilística, es de viabilidad.
Qué significa exactamente "vertical"
La palabra se ha desgastado y conviene fijarla. Un agente vertical, en el sentido útil, cumple tres condiciones simultáneas. Sin las tres no es vertical, es marketing.
- Dominio acotado de forma explícita. El agente sabe qué tipo de preguntas responde y rechaza el resto. No es "responde todo lo que puedas y si no, improvisa". Es "esto sí, esto no, y aquí están los criterios de corte".
- Conocimiento curado de ese dominio. Documentación, terminología, criterios de decisión, ejemplos de respuesta válida. No es el modelo genérico al que le has dado un prompt largo: es el modelo genérico contra el que se ha construido una capa propia de conocimiento accesible vía recuperación, ajuste o ambas.
- Evaluación contra un estándar de dominio. El agente se mide contra lo que la gente del dominio considera respuesta correcta, no contra una métrica genérica de fluidez. Esto es lo que más se salta el mercado, y es lo que separa un vertical real de un horizontal disfrazado.
Si esto suena más a oficio que a tecnología, es porque lo es. Construir un agente vertical se parece más a montar un equipo nuevo en un departamento existente que a desplegar una herramienta de software. El componente humano de definir el dominio es la mitad del trabajo. La diferencia entre qué diferencia un chatbot de un agente de IA ya marca esta línea: el chatbot conversa, el agente actúa. El vertical, además, actúa en un terreno conocido.
Los casos faro de 2026
Harvey — legal corporativo
Harvey es probablemente el caso más visible. Agente vertical para legal corporativo, usado por bufetes grandes (PwC entre ellos, según comunicación pública) para due diligence, revisión contractual y búsqueda jurisprudencial. No es un asistente que también sabe de derecho: está construido desde la primera línea contra el dominio legal anglosajón. Lo relevante no es lo bonita que es la demo, es lo que un asociado senior puede dejar de hacer cuando el agente le entrega un primer pase con el nivel de un junior bien formado. Esa es la economía del vertical: no sustituye al humano, le sube la línea de partida.
Rogo — banca de inversión
Rogo es el ejemplo del que más se ha hablado en los últimos meses, y por motivos cuantitativos. El equipo publicó que al especializar el agente contra el dominio de banca de inversión (memos, comparables, modelos), la tasa de hallucination bajó del 34,1% al 3,9%. Esa cifra es la que conviene memorizar, porque es la respuesta numérica al argumento de "para qué especializar si ChatGPT ya hace eso". ChatGPT genérico no se acerca a esos números en un dominio así de tecnificado, y la razón es estructural: no tiene incentivo para reconocer lo que no sabe.
Markups.ai — revisión contractual
Markups.ai es más estrecho todavía: un agente vertical para markups, es decir, anotación, revisión y propuesta de cambios en contratos. No hace búsqueda jurisprudencial, no escribe contratos desde cero. Hace una cosa: lee la versión que llega de la otra parte, identifica desviaciones respecto al estándar interno y propone redlines. Esa renuncia explícita a hacer otras cosas es lo que lo convierte en herramienta de producción y no en demo.
Inspira — operativa legal
Inspira reportó una reducción del 80% del tiempo en ciertos flujos legales internos al meter un vertical específico para esos flujos. El número, como todo número auto-reportado, hay que tomarlo con prudencia, pero el orden de magnitud es coherente con lo que se ve en otros casos: cuando el dominio es claro y la herramienta se mete con cuidado, las ganancias no son del 10%, son del 70-80%. La diferencia es de naturaleza, no de grado.
Stax AI — trust accounting
Y un caso final, de los que ilustran hasta dónde llega la lógica vertical. Stax AI hace agentes para trust accounting, contabilidad fiduciaria. Una pieza concretísima dentro de la contabilidad legal, con sus normas, su terminología, sus formatos. Que exista una empresa entera dedicada solo a eso dice más sobre dónde va el mercado que cien artículos sobre IA generalista. La lógica de fondo: hay valor enterrado en cada dominio acotado lo suficiente como para que un vertical bien hecho lo desbloquee.
Por qué un vertical responde mejor
La intuición es sencilla y conviene tenerla clara. Un modelo genérico responde sobre la base de todo lo que ha visto durante el entrenamiento. Cuando le pides algo de un dominio donde lo que ha visto es ruidoso, incompleto o contradictorio, lo que produce hereda ese ruido. Y aquí viene la trampa: produce una respuesta fluida, no una respuesta correcta. La fluidez engaña.
El vertical hace tres cosas que cambian la salida:
- Restringe el espacio de respuesta. En vez de tener todo el lenguaje humano como universo posible, tiene el lenguaje del dominio. Las respuestas absurdas son menos probables porque están fuera del corpus de referencia.
- Tiene criterio de corte. Sabe distinguir lo que está dentro del dominio de lo que está fuera, y rechazar explícitamente esto último. No sé responder a eso es una respuesta válida que un genérico nunca da espontáneamente.
- Se evalúa contra el dominio. Cada iteración del agente se mide contra ejemplos que vienen de gente que entiende el oficio. Lo que está mal sale a la luz porque hay quien sabe distinguirlo, no porque el modelo lo detecte solo.
De ahí la cifra de Rogo. No es que el modelo base sea peor, es que el modelo base aplicado al dominio sin la capa vertical produce un 34,1% de respuestas con errores que un banquero de inversión detecta a la primera. El mismo modelo, con la capa vertical bien construida, baja al 3,9%. La capa no es opcional, es estructural.
El espejismo de la demo perfecta. Un genérico parece más capaz que un vertical en una demo de cinco minutos: responde a más cosas, suena más natural, da menos veces el no sé. En producción es justo al revés. El vertical produce menos respuestas, pero las que produce son utilizables. El genérico produce muchas respuestas, pero el directivo no sabe cuáles son ruido. Compras una herramienta para que reduzca trabajo, no para añadir un paso de filtrado.
Vertical no significa caro ni inalcanzable
Aquí es donde el frame heredado más estorba. Hay una creencia tácita de que vertical es cosa de grandes corporativos con presupuestos de siete cifras, y de que la pyme tiene que conformarse con el genérico porque no le da el bolsillo. Eso era cierto en 2022 cuando construir un vertical implicaba ajustar un modelo desde cero. Hoy no lo es.
En 2026, un agente vertical para una pyme se monta sobre un modelo base ya entrenado al que se le proporcionan tres cosas: la documentación específica del dominio (entre 50 y 500 documentos suelen bastar, dependiendo de la densidad), los patrones de decisión propios de la casa, y los criterios de validación. El resto es trabajo de integración. Los presupuestos típicos para una pyme pequeña o mediana caen en el rango de 8.000 a 30.000 euros según el alcance, no en los seis dígitos que muchos asumen.
Y aquí viene la pregunta razonable: si un ChatGPT cuesta 20 euros al mes por usuario, ¿por qué la diferencia? La respuesta es directa: porque no compiten por la misma cosa. El genérico compite por el resumen, el primer borrador, la idea suelta, la traducción rápida. El vertical compite por la decisión que afecta al cliente, al margen o a la responsabilidad legal. Si tu equipo está usando un genérico para lo segundo, el coste oculto de los errores no detectados es mucho mayor que la diferencia de precio. El vertical no es una versión cara del genérico, es una herramienta distinta. Esto enlaza directamente con agentes de IA para pymes bien entendidos: el agente que aporta valor no es el que hace de todo, es el que hace una cosa bien atornillada al pipeline.
El criterio de Ailitica: cuándo proponer vertical
Cuando entramos en una pyme y nos preguntan qué herramienta de IA conviene, la respuesta nunca es una herramienta. Es una mezcla. Y la línea de corte es siempre la misma: el resultado, ¿sostiene una decisión que importa o no?
Si sostiene una decisión que importa (afecta al cliente, al margen, a un compromiso legal, a un dato que va a otro sistema), vertical. Si no sostiene esa decisión y es para uso interno, exploratorio o de apoyo, horizontal está bien. El error caro es usar horizontal para lo que necesita vertical, no al revés. Usar vertical para resumir un correo interno es overkill y se ve enseguida; usar horizontal para clasificar pedidos de cliente o redactar respuestas a reclamaciones se ve cuando llega la reclamación que tu modelo no supo distinguir.
Y antes de saltar a vertical, conviene revisar la lista de cuándo NO usar IA en una empresa. Hay casos donde la respuesta correcta no es ni vertical ni horizontal: es ninguna IA, al menos de momento. El vertical no resuelve un proceso roto, lo automatiza con mayor precisión.
Lo que cambia cuando el agente es vertical
Una pyme que pone un vertical en producción descubre tres cosas que con el genérico no estaban:
Primero, el agente sabe cuándo callarse. Si le preguntas algo fuera del dominio, te lo dice. Esto parece trivial pero no lo es: un genérico nunca dice no, y eso significa que cada respuesta requiere lectura crítica para detectar cuándo está inventando. Un vertical bien hecho devuelve fuera de mi alcance tan rápido como devuelve la respuesta buena, y eso libera tiempo del humano.
Segundo, el agente se puede auditar contra un estándar. Lo que es respuesta correcta está definido por el dominio, no por la opinión del responsable de turno. Eso facilita la auditoría diaria del agente, una de las piezas más subestimadas del despliegue. Sobre cómo hacerla bien sin medios técnicos, en auditoría diaria del agente está la rutina mínima.
Tercero, el control humano se concentra donde tiene valor. En el genérico, todo necesita supervisión porque todo puede salir mal. En el vertical, la supervisión se aplica a los puntos donde el dominio dice que se aplica: aprobaciones específicas, validaciones críticas, decisiones que el agente no puede tomar solo. Y esos puntos están definidos, no negociados ad hoc. Esto encaja directamente con los mecanismos de control de un agente IA que recomendamos como diseño base.
La pregunta directa para tu empresa
Si has llegado hasta aquí, la pregunta útil es solo una: ¿hay en tu empresa una tarea que cumpla las tres condiciones siguientes? Una, ocupa horas significativas a alguien con conocimiento del dominio. Dos, sigue un patrón identificable, aunque tenga variaciones. Tres, su resultado entra en un proceso que tiene consecuencias (cliente, dinero, registro, responsabilidad).
Si la respuesta es sí, ahí hay un caso de agente vertical. No el caso, porque puede haber tres o cuatro en la misma empresa, pero al menos uno. Y la conversación que abre es la que vale la pena tener antes de seguir alargando una suscripción genérica que tu equipo está usando para tareas que se le quedan grandes.
El agente bueno no responde lo que sea. Responde tu pipeline. Esa es la diferencia.
Si quieres revisar si en tu pipeline hay un caso vertical antes de seguir invirtiendo en horizontal, escríbenos a [email protected]. Una conversación de 45 minutos basta para saber si hay caso, qué tipo de vertical encaja y qué orden de magnitud de inversión exige.