GUÍA COMPLETA: Crea tu Agente de Voz (Vapi + React)

junio 16, 2026
by Carlos

Aprende a estructurar, codificar y desplegar un panel interactivo para configurar y probar agentes de voz en tiempo real utilizando Inteligencia Artificial y Vapi.

Paso 1: Configurar Vapi y Obtener Credenciales

Para que los agentes de voz puedan realizar llamadas WebRTC (audio bidireccional en tiempo real), es necesario utilizar la infraestructura del proveedor de voz.

Crear una cuenta: Regístrate en Vapi.ai.
Obtener la API Key: Ve al panel de control (Dashboard), entra a la sección de Account o Keys, y copia tu Token de Clave Pública (Public Key) (tiene el prefijo vapi-key-… o similar).
Crédito de prueba: Vapi regala un pequeño saldo inicial de cortesía para realizar tus primeras llamadas de diagnóstico sin costo.

Paso 2: Elegir un Asistente de Codificación de IA

Para desarrollar rápidamente la interfaz y la lógica de conexión sin codificar todo desde cero, puedes apoyarte en un asistente conversacional de código avanzado como:

Google AI Studio (Build) / Antigravity
Claude Code / Cursor / Codex
Copilot

Asegúrate de inicializar un proyecto con el stack técnico básico recomendado: React 18+, Vite, Tailwind CSS y TypeScript.

Paso 3: Pegar el Prompt Maestro para la IA

Cuando inicies la conversación con el asistente de código, no uses descripciones genéricas. Pega el siguiente Prompt Maestro detallado que contiene todo el aprendizaje de optimización acústica y técnica:

Markdown

Desarrolla una aplicación web SPA interactiva utilizando React (Vite), Tailwind CSS, Lucide-React y TypeScript para simular y probar Agentes de Voz telefónicos en tiempo real mediante el SDK de @vapi-ai/web.

La aplicación debe estructurarse en una pantalla única con diseño premium (Tema Dark Slate de alto contraste) y dividirse en dos secciones principales:

1. PANEL IZQUIERDO: CONFIGURADOR DE AGENTES
- Selector de Plantillas Preestablecidas: Debe incluir al menos 3 casos de uso reales (por ejemplo: Recepcionista de Hotel, Soporte Técnico y Asesor de Ventas).
- Campos de Entrada Editables:
  * Nombre del agente.
  * Mensaje inicial inmediato (Greeting).
  * System Prompt / Directrices de comportamiento (cortas y ágiles).
- Controles de Audio y Parámetros (Deslizadores / Controles interactivos):
  * Selector de Voz con ID reales compatibles. IMPORTANTE: Default de voz mexicana natural utilizando Microsoft Azure Neural (ej. "es-MX-DaliaNeural" para mujeres, "es-MX-JorgeNeural" para hombres) o ElevenLabs fluidos para evitar latencia, voces lentas o caídas.
  * Velocidad del Habla (Speech Speed): Deslizador entre 0.8x y 1.3x para controlar la velocidad física acústica de la voz (fija el valor por defecto en 1.15x para evitar que el bot hable 'en cámara lenta').
  * Temperatura del LLM (Creatividad): Deslizador de 0.0 a 1.2 que controle la variabilidad de redacción de la IA.
  * Umbral de Silencio (Silence Timeout): Tiempo en segundos que esperará antes de colgar si el usuario no habla.

2. PANEL DERECHO: INTERFAZ DE LLAMADA Y TRANSCRIPCIÓN
- Botón de Acción Principal: Un botón interactivo de inicio/fin de llamada con animaciones de ondas de pulso acústico (motion effects) que cambie de estado visual según la llamada ('Conectando', 'En vivo', 'Colgado').
- Indicador visual de Red/Audio: Iconos interactivos que muestren si el micrófono está activo y el estado de la comunicación.
- Transcriptor Dinámico en Tiempo Real (Scroll Automático): Un visor elegante que reciba los eventos del SDK de Vapi ('speech-update', 'transcript') y muestre claramente la conversación diferenciando las burbujas de texto: "[Tú]" versus "[Asistente]".

REQUISITOS TÉCNICOS CRÍTICOS:
- SDK de Vapi: Utiliza la librería oficial "@vapi-ai/web". Inicializa la instancia del cliente de manera perezosa (lazy load) para evitar caídas si la clave de API está vacía temporalmente.
- Configuración de Llamada (Payload mapping):
  * Mapea correctamente el identificador de idioma del transcriptor ('es-419' para español general de Latinoamérica).
  * Si la voz elegida es de ElevenLabs, asegúrate de que el proveedor acústico se envíe como '11labs' en el payload de Vapi y el modelo sea 'eleven_multilingual_v2'.
  * Deshabilita voces PlayHT o ElevenLabs lentas que tiendan a generar el error "{endedReason: 'playht-unknown-error'}" o eyección de sala telefónica.
- Tolerancia a un solo hilo: Escribe el código de manera modular (separa tipos o diccionarios del componente visual principal) para evitar superar los límites de tokens o provocar bucles infinitos en el useEffect.

Paso 4: Despliegue en Simulador o Localhost

Una vez que el modelo de IA genere el código base:

Instalar dependencias: Ejecuta en la terminal del proyecto:
Bash
npm install npm install @vapi-ai/web
Iniciar servidor de desarrollo:
Bash
npm run dev
Ingresar Key y Probar: Abre el navegador en el puerto seleccionado (usualmente http://localhost:3000), introduce tu Token de Clave Pública de Vapi directamente en el visor de configuraciones del panel y haz clic en “Iniciar Llamada” para dar permisos de micrófono y comenzar a hablar con el agente.

Paso 5: Optimización Basada en Resultados (Iteraciones en Viga)

No te detengas con la primera versión. En telefonía con IA, el detalle acústico es vital. Aplica estas mejoras iterativas según lo que experimentes:

Si el agente habla muy lento o aburrido: Ajusta el control de Velocidad del habla a un mínimo de 1.10x o 1.15x. Las voces de Microsoft Azure Neural tienen la latencia más baja del mercado y un ritmo sumamente dinámico en español mexicano.
Si el agente tarda mucho en responder tras tu silencio: Reduce el tiempo de Silence Timeout (umbral de silencio) para que la IA entienda rápidamente que terminaste de hablar.
Si el bot responde cosas incoherentes o se sale del personaje: Reduce la Temperatura de Creatividad del LLM hacia un rango de 0.3 – 0.6 para obtener respuestas más lógicas y corporativas. Sube la temperatura a 1.0+ solo si quieres un compañero conversacional para lluvia de ideas.
Evita errores de desconexión: La combinación de Transcriptor deepgram con idioma es-419, junto a voces de tipo azure es la fórmula más estable en Vapi para interacciones fluidas en América