Agents everywhere
November 22, 2025
Un par de precisiones operativas. Es muy probable que mi texto Pura challa sea interpretado como una negación absoluta de los agentes. No es así: sí hay agentes. Un buen ejemplo es el soporte de OpenAI. No te atiende un humano de entrada; te atiende una orquestación de flujos automatizados basados en LLM que clasifican, analizan, generan respuestas iniciales, sumarizan y rutean. Alto nivel de automatización con LLM previa a la atención humana.
Recordatorio: un agente es un sistema que toma acciones en un entorno para alcanzar un objetivo.
Hacer el ejercicio de usar NotebookLM como un flujo agéntico (agentic-workflow) ayuda a visualizar esta lógica de desarrollo que, si observamos con detención, ya está embebida en varios productos.
La manifestación más evidente no son los agentes autónomos de Youtube, sino los SaaS sustentados en LLM: generadores de presentaciones, apps, resúmenes, "trabajadores virtuales", etc. La arquitectura es la misma: invocaciones secuenciales a un LLM en partes críticas del flujo para encadenar resultados hasta lograr un producto coherente.
Caso de estudio: Generar Presentaciones con Google Slides en Canvas
Importante, aún no hay un botón explícito "Hacer PPT" en el Canvas. Debe indicarse explícitamente en el prompt.
Disclaimer: Describo la arquitectura de solución basándome únicamente en mi intuición técnica y deducción por uso, no en documentación oficial. El objetivo es ejercitar el "reverse-engineering" para ir captando el framework.
El Input: Prompt en Gemini 2.5 Pro / 3.0, Canvas activado: "Genera una presentación en base a los siguientes datos... Incluye gráficas de comportamiento histórico y conclusiones sobre la evolución de tipos de usuario". Adjunto imagen (screenshot) de una tabla con datos de interacciones (Abril-Octubre 2025), segmentados por volumen de uso.
El Resultado: La primera presentación elegante generada por IA que vengo esperando desde 2022 (he probado muchas herramientas, he hecho muchas pruebas). Diseño sobrio, centrado, sin errores de maquetación, gráficas con análisis breve y al hueso. Nivel senior, buen storytelling. (Nota: la calidad fluctúa, últimamente decae, pero la estructura base funciona y supera al promedio del mercado, Copilot + Power Point incluido).
Disección del flujo agéntico (Hipótesis)
Si observamos que los gráficos en Slides son similares a los recortes HTML de las infografías de Canvas, podemos deducir el pipeline:
- Parsing multimodal: OCR/embedding de imágenes y tablas, normalización de datos.
- Interpretación semántica: Entender la data adjunta y los parámetros de petición (aquí percibo que pesa mucho más la configuración del sistema que el prompt del usuario).
- Planificación: Orquestación de pasos para completar la solicitud.
- Storytelling estructurado: Definición del arco narrativo (Introducción → Desarrollo → Conclusión/Remate). Preparación de data intermedia para maximizar el impacto del cierre. Muy buen ritmo.
- Generación de activos: Creación de gráficos en HTML o nativos (si la data lo amerita).
- Captura visual: Screenshots o renderizado de los gráficos. En paralelo, búsqueda de imágenes genéricas ad-hoc en sitios públicos.
- Guionización: Distribución del contenido en slides basada en el storytelling.
- Layout dinámico: Ubicación espacial de los elementos. Esto introduce la variabilidad: es improbable obtener dos resultados idénticos.
- Paralelismo agéntico (sub-tareas): Probable distribución a sub-agentes especializados: uno maqueta, otro redacta análisis, otro valida coherencia visual y de contenido.
- Verificación de consistencia: Chequeo final, compilación de slides, agregado de placeholders (agradecimientos/preguntas).
- Entrega y meta-resumen: Output final en Canvas con explicación del contenido generado.
No es un agente autónomo, pero sí es un flujo con tareas que se desenvuelven con agencia.
Puntos que me llaman la atención
- Asimetría de adopción: Sí hay agentes, pero en empresas de tecnología, sobre todo en las más grandes. Una corporación cloud-native que conoce sus heurísticas y es dueña de su stack puede crear agentes a punta de llamadas a LLM. Una corporación tradicional con sistemas legados y datos sucios, no. No en primera instancia.
- El "AI Tax" (me encanta este concepto): Esto plantea un desgaste para el cliente corporativo. ¿Debo tener un agente de IA por cada SaaS que utilizo? ¿Debo gestionar licencias, orquestación y seguridad para cada "trabajador virtual"? El próximo unicornio (falso) será la plataforma que prometa orquestar este caos.
- Mutación del servicio: El agente cambia la experiencia de uso, liberando tiempo pero alterando el producto.
- La venta de humo: Hoy un agente puede existir en una tecnológica. Es cuestionable cuando una consultora sin experiencia intenta vender ese desarrollo a una corporación que ni siquiera controla su propia arquitectura. Ahí la challa.
- Devaluación del trabajo cognitivo: Presentaciones, planillas, informes... productos que requerían expertise ahora se resuelven con un prompt. La calidad de la IA supera al trabajador promedio. Además -opinión personal- si el chatbot se convierte en la interfaz universal de consulta de datos, el valor de la ofimática tradicional se empieza a cuestionar. Kokotajlo no va tan equivocado...
- Obsolescencia programada de los SaaS "wrapper": Los servicios que son meros envoltorios de LLM (generadores de slides, etc.) son de corto aliento. Los modelos fundacionales (Google, OpenAI) los integrarán en el plan básico. El Canvas de Gemini, simple y potente, es la prueba. Para qué decir de Grok.
- El triunfo del TaaS (Thinking as a Service): Google lleva la delantera en UX: sus productos funcionan con un click. En NotebookLM o Canvas no necesitas un prompt elaborado; el flujo agéntico asume la carga cognitiva. Es el epítome del TaaS. Otro nivel de GenAI. Nivel Wall-E, pero -lamentablemente- funciona.