Codex computer use: automatiza apps sin API

Codex ahora controla tu computadora: qué es computer use y por qué importa

Durante años, la automatización tuvo un límite claro: solo podías automatizar lo que tenía una API o un conector disponible. El resto — las apps locales, los sistemas con interfaz gráfica, los formularios que viven únicamente en una ventana de escritorio — seguían requiriendo intervención humana. En mayo de 2026, OpenAI mostró algo que empieza a cambiar eso de forma concreta.

Codex, que hasta hace poco era conocido principalmente como un agente de programación, acaba de recibir una capacidad llamada computer use: la posibilidad de controlar aplicaciones en tu computadora de la misma manera en que lo harías tú. Mueve el cursor, hace clic, escribe texto, navega por menús. Y lo hace en segundo plano, sin interrumpir lo que estás haciendo.

En este artículo analizamos cómo funciona técnicamente, qué lo diferencia de implementaciones anteriores, y qué implicaciones concretas tiene para equipos de trabajo y empresas en Perú y América Latina.

Cómo funciona computer use en Codex

La mayoría de los sistemas de computer use que existían antes funcionaban con capturas de pantalla. El modelo «veía» una imagen de la pantalla y decidía dónde hacer clic usando coordenadas. Funciona, pero tiene limitaciones importantes: es lento, requiere modelos multimodales costosos, y el modelo no puede ver elementos que están fuera del área visible.

Codex toma un enfoque diferente. En lugar de depender únicamente de imágenes, extrae información del framework de accesibilidad del sistema operativo. Este framework existe originalmente para que lectores de pantalla y tecnologías de asistencia puedan interpretar interfaces gráficas. Lo que hace Codex es aprovecharlo para obtener una descripción textual estructurada de cada elemento en pantalla: qué es, cuál es su función, cuál es su estado — incluso si está fuera del área visible.

Esto tiene dos consecuencias importantes. Primero, el modelo entiende la interfaz con mucha más profundidad que mirando solo píxeles. Segundo, y esto es lo técnicamente relevante: al no depender de imágenes, puede usar modelos de texto rápidos como Codex Spark, que no tienen capacidades multimodales pero son significativamente más veloces. El resultado, según el demo publicado por OpenAI, es un agente que puede operar software más rápido que un humano promedio.

Multitarea real y operación en paralelo

Uno de los aspectos más llamativos del demo es que Codex puede controlar múltiples aplicaciones al mismo tiempo, con cursores independientes que no interfieren con el cursor del usuario. En la demostración, el equipo mostró a Codex configurando una máquina virtual en UTM, reproduciendo música en Spotify y agregando un recordatorio en la app de Reminders — todo simultáneamente, mientras el usuario seguía trabajando en su computadora con normalidad.

Esto es cualitativamente diferente a lo que ofrecían implementaciones anteriores, donde el agente tomaba control total del equipo y el usuario tenía que esperar. Aquí el modelo opera como un colaborador paralelo, no como un sustituto temporal.

Desde el punto de vista de productividad, esto significa que tareas que antes requerían atención activa — actualizar una hoja de cálculo, configurar un entorno de pruebas, gestionar archivos entre aplicaciones — pueden delegarse sin detener el flujo de trabajo principal.

¿Cómo aplica esto en empresas de Perú y América Latina?

En la región, una parte importante del trabajo operativo todavía ocurre en aplicaciones de escritorio: sistemas contables locales, software de facturación electrónica, ERPs con interfaces legacy, herramientas de gestión que no tienen API pública. Estos sistemas han sido históricamente el cuello de botella de cualquier proyecto de automatización.

Computer use abre una puerta que antes estaba cerrada. Si un proceso requiere que alguien abra un programa, ingrese datos, exporte un reporte y lo adjunte a un correo, ese flujo completo se vuelve automatizable — sin necesidad de que el proveedor del software ofrezca integración alguna.

Para equipos de TI y líderes de operaciones, esto también cambia el análisis costo-beneficio de la automatización. Ya no es necesario esperar a que un proveedor desarrolle una API o un conector. El agente puede trabajar directamente con la interfaz que ya existe.

Es importante ser realista: esta tecnología está en etapa temprana. Los demos muestran casos controlados y relativamente simples. Interfaces complejas, flujos con errores inesperados o sistemas con comportamientos inconsistentes seguirán siendo un desafío. Pero la dirección es clara.

¿Cómo aplica esto en tu empresa?

Si estás evaluando si computer use es relevante para tu operación hoy, aquí hay tres preguntas concretas para empezar:

¿Qué tareas repetitivas en tu equipo ocurren dentro de aplicaciones de escritorio? Ingreso de datos, generación de reportes, actualizaciones manuales en sistemas locales. Esos son los candidatos más inmediatos.
¿Tienes software que no tiene API ni integración disponible? Si la respuesta es sí, computer use puede ser la única forma de automatizar esos flujos sin cambiar de sistema.
¿Tu equipo pierde tiempo en tareas de configuración o setup técnico? Crear entornos, instalar dependencias, configurar herramientas — todo eso es automatizable con un agente que controla el escritorio.

El siguiente paso no es necesariamente implementar Codex mañana. Es mapear los procesos manuales que dependen de interfaces gráficas y entender cuáles tienen el mayor impacto si se automatizan. Eso te prepara para aprovechar esta tecnología en cuanto sea lo suficientemente madura para tu contexto.

Conclusión

Computer use en Codex no es solo una función nueva en una herramienta de programación. Es una señal de hacia dónde va la automatización: agentes que pueden operar cualquier software, no solo el que fue diseñado para integrarse. Para empresas en Perú y América Latina, donde una parte significativa de los procesos todavía vive en sistemas sin API, esto tiene implicaciones reales a mediano plazo.

En Consultoría-Ti trabajamos con empresas que están evaluando cómo integrar automatización e inteligencia artificial en sus operaciones de forma práctica y con resultados medibles. Si quieres explorar qué procesos en tu empresa podrían beneficiarse de estas capacidades, conversemos.

Fuentes y Referencias

OpenAI YouTube — Computer use in Codex

✨ Contenido generado con ContentFlow — Consultoría-Ti

en Inteligencia Artificial

Nuestros blogs

Codex de OpenAI: qué cambia en tu equipo técnico