Tu agente de IA ahora puede contestar el teléfono: así funciona Gemini Live con Twilio
Imagina que un cliente llama a tu empresa a las 11 de la noche. No hay nadie disponible, pero el teléfono sí contesta — y quien responde entiende perfectamente lo que el cliente dice, responde con naturalidad y puede resolver consultas reales. Eso ya no es un proyecto de investigación. En abril de 2026, Google for Developers publicó una demostración técnica mostrando exactamente cómo conectar Gemini Live, su modelo de IA en tiempo real, a una línea telefónica convencional usando Twilio y Google Cloud Run.
La pregunta que más escucho de gerentes y dueños de PYME en Perú es: "¿Cuándo esto va a ser práctico para nosotros?" La respuesta, viendo esta integración, es: ya lo es. La arquitectura es accesible, las herramientas están disponibles, y el código de ejemplo está publicado en GitHub. Lo que falta es entender cómo funciona y qué decisiones técnicas implica.
En este artículo te explico los componentes clave de esta integración, el detalle técnico que más se suele pasar por alto, y cómo las empresas en Latinoamérica pueden aprovechar esto para transformar su atención al cliente o sus procesos internos.
Cómo funciona la integración: WebSockets como columna vertebral
El corazón de esta arquitectura es sorprendentemente simple. Se construye un servidor con FastAPI que actúa como intermediario entre dos mundos: la llamada telefónica que entra por Twilio y el modelo de IA que procesa el audio en tiempo real a través de la Gemini Live API.
Cuando alguien llama al número de Twilio configurado, este redirige el audio hacia el servidor desplegado en Google Cloud Run usando Twilio Media Streams — básicamente un WebSocket que transmite el audio de la llamada en tiempo real. El servidor recibe ese audio, lo pasa al modelo Gemini Live, y devuelve la respuesta de vuelta por el mismo canal. El resultado es una conversación fluida, sin cortes, sin menús de "presione 1 para...".
El mismo servidor puede manejar tanto llamadas entrantes (el cliente llama a tu número) como salientes (el agente llama proactivamente a un contacto). Para las salientes, basta con hacer un POST al servidor con el número destino y Twilio inicializa la llamada automáticamente.
El deploy en Cloud Run es directo: se habilita Cloud Build para el contenedor, Secret Manager para gestionar de forma segura las API keys de Gemini y las credenciales de Twilio, y en minutos tienes una URL pública lista para conectar.
El detalle técnico que no puedes ignorar: conversión de audio
Aquí está el punto que más se omite en los tutoriales rápidos, y que en producción puede ser la diferencia entre un agente que funciona bien y uno que suena como una llamada de los años 90.
Gemini Live transmite audio en formato PCM a 24kHz, 16-bit. Es audio de alta calidad, ideal para que el modelo procese matices de voz, acentos y entonación con precisión. Twilio, en cambio, trabaja con mu-law a 8kHz — el estándar de telefonía tradicional, que es más comprimido y de menor resolución.
Esto significa que el servidor debe hacer una conversión de formato en tiempo real, en ambas direcciones, sin introducir latencia perceptible. No es un problema imposible, pero sí requiere atención. Si prefieres no lidiar con esto directamente, Google tiene socios certificados que ya resolvieron esta capa: LiveKit, Agora, Vapi, Pipecat y Vox Implant, entre otros, ofrecen integraciones listas con WebRTC y telefonía que abstraen completamente la conversión de audio.
Para un prototipo o proyecto interno, hacerlo manualmente es perfectamente viable. Para un sistema en producción con alto volumen de llamadas, usar un proveedor especializado es la decisión más inteligente.
¿Cómo aplica esto en empresas de Perú y Latinoamérica?
El contexto local importa. En Perú y gran parte de LATAM, muchas PYME todavía dependen de call centers externos costosos, IVR anticuados que frustran al cliente, o simplemente de personas que contestan el teléfono en horario de oficina. Los tres modelos tienen el mismo problema: escalan mal y tienen costo fijo alto.
Un agente de voz basado en Gemini Live puede atender llamadas las 24 horas, en español con acento natural, entendiendo preguntas abiertas sin necesidad de que el cliente navegue por un menú. Los casos de uso más inmediatos para empresas medianas en la región incluyen:
- Atención al cliente de primer nivel: responder consultas frecuentes sobre productos, horarios, estado de pedidos o soporte básico.
- Calificación de leads entrantes: el agente recoge información del prospecto antes de transferir a un ejecutivo humano.
- Confirmación de citas y recordatorios: llamadas salientes automáticas para reducir ausencias en clínicas, consultorios o servicios.
- Soporte interno: agentes que responden consultas del equipo sobre procesos, políticas o información del ERP.
La integración con sistemas existentes como Odoo es un paso natural. Un agente de voz conectado al ERP puede consultar stock en tiempo real, verificar el estado de una orden o registrar una incidencia — todo durante la llamada, sin intervención humana.
¿Cómo aplica esto en tu empresa?
Si estás evaluando si esto es viable para tu organización, aquí hay un camino concreto para empezar sin arriesgar demasiado:
- Empieza con un caso de uso acotado: no intentes reemplazar todo tu call center de golpe. Elige un flujo específico — confirmación de citas, consultas de horario, FAQ de producto — y construye el agente para ese único propósito.
- Usa el ejemplo oficial de GitHub: Google publicó el código completo del ejemplo mostrado en el video. Es un punto de partida sólido que ya tiene el handler de Twilio integrado.
- Decide si manejas la conversión de audio tú mismo: si tienes un equipo técnico con experiencia en audio y WebRTC, hazlo. Si no, evalúa LiveKit o Vapi — el tiempo que ahorras justifica el costo.
- Despliega en Cloud Run desde el inicio: escala automáticamente, pagas solo por uso, y no necesitas gestionar servidores. Para un piloto en una PYME peruana, el costo inicial es marginal.
- Mide antes de escalar: define métricas claras — tasa de resolución sin intervención humana, tiempo promedio de llamada, satisfacción del cliente — antes de expandir el agente a más flujos.
Conclusión
Los agentes de voz con IA ya no son exclusivos de grandes corporaciones con presupuestos millonarios. Con Gemini Live, Twilio y Cloud Run, una empresa mediana en Perú puede tener un agente telefónico inteligente funcionando en producción en cuestión de días — no meses. La barrera técnica existe, pero es manejable. La barrera más real es la de decidir empezar.
En Consultoría-Ti trabajamos con empresas en Perú y Latinoamérica que están dando exactamente ese paso: integrar IA conversacional con sus sistemas de gestión para automatizar procesos que hoy dependen de personas haciendo tareas repetitivas. Si quieres explorar cómo un agente de voz puede encajar en tu operación, conversemos — sin compromiso y con foco en lo que realmente tiene sentido para tu negocio.
Fuentes y Referencias
Google for Developers — Add Telephony to a Gemini Live Agent
✨ Contenido generado con ContentFlow — Consultoría-Ti