Descripción General
Los controles de Detección de Actividad de Voz (VAD) y Detección de Turno permiten que tus agentes de IA reconozcan cuando los usuarios están hablando, detecten cuándo han terminado su turno y manejen las interrupciones de forma natural. Estas configuraciones son cruciales para crear conversaciones fluidas y similares a las humanas que se sientan responsivas sin cortar a los usuarios a mitad de frase. VAD y detección de turno trabajan juntos para determinar cuándo escuchar, cuándo responder y cómo manejar las interrupciones - transformando el reconocimiento básico de voz en interacciones conversacionales naturales.

Aplicación Universal: Las configuraciones de VAD y detección de turno se aplican a todos los tipos de conversación, incluyendo llamadas telefónicas (SIP/PSTN) y conversaciones basadas en web.La configuración está disponible en Configuración del Agente → Operaciones → Detección de Actividad de Voz (VAD). Las configuraciones incluyen preajustes de sensibilidad, finalización inteligente, manejo de interrupciones y parámetros de ajuste avanzado.
¿Qué es la Detección de Actividad de Voz?
Comprendiendo la Tecnología VAD
La Detección de Actividad de Voz (VAD) es la tecnología que determina cuándo alguien está hablando versus cuando hay silencio o ruido de fondo. Es la base para saber cuándo escuchar y cuándo un usuario ha terminado de hablar. Componentes clave:- Detección de Habla: Identifica cuándo comienza la actividad de voz
- Detección de Silencio: Reconoce cuándo el habla ha terminado
- Filtrado de Ruido: Distingue el habla de los sonidos de fondo
¿Qué es la Detección de Turno?
La detección de turno (también llamada “finalización”) determina cuándo un hablante ha terminado su turno conversacional y es momento de que el agente responda. Esto es más sofisticado que la simple detección de silencio, ya que tiene en cuenta las pausas naturales, el tiempo de pensamiento y el contexto conversacional.Finalización Inteligente
Detección de Fin de Turno Impulsada por IA
La Finalización Inteligente utiliza un modelo de IA para detectar el fin de turno con mayor precisión que solo VAD básico. Esta característica avanzada ayuda a prevenir cortar a los usuarios durante pausas naturales mientras mantiene un flujo de conversación responsivo. Beneficios:- Reduce los cortes falsos durante pausas naturales
- Mejora el manejo de interrupciones cuando los usuarios interrumpen
- Maneja mejor oraciones de múltiples cláusulas
- Tiene en cuenta el contexto conversacional
Alternador de Finalización Inteligente
Activa o desactiva la detección de turno basada en IA. Cuando está desactivada, el sistema usa detección solo basada en VAD con tiempos de respuesta más rápidos.
Preajustes de Sensibilidad
Opciones de Configuración Rápida
Elige entre niveles de sensibilidad preconfigurados que equilibran la responsividad con la precisión. Cada preajuste ajusta automáticamente múltiples parámetros para un rendimiento óptimo en escenarios comunes.Sensibilidad Baja
Sensibilidad Baja
Menos sensible, menos interrupcionesMejor para:
- Entornos con ruido de fondo
- Usuarios que hablan con pausas largas
- Conversaciones formales que requieren paciencia
Sensibilidad Media (Recomendada)
Sensibilidad Media (Recomendada)
Sensibilidad equilibradaMejor para:
- Conversaciones de propósito general
- Entornos mixtos
- La mayoría de casos de uso empresarial
Sensibilidad Alta
Sensibilidad Alta
Más sensible, respuestas más rápidasMejor para:
- Conversaciones de ritmo rápido
- Entornos de audio limpio
- Interacciones sensibles al tiempo
Configuraciones Avanzadas
Configuración Personalizada
Para un control ajustado, cambia al modo “Personalizado” para acceder a parámetros avanzados. Estas configuraciones permiten un ajuste preciso para casos de uso o entornos específicos.Manejo de Interrupciones
Permitir Interrupciones
Permitir Interrupciones
Interruptor principal para el manejo de interrupcionesCuando está habilitado, los usuarios pueden interrumpir al agente mientras está hablando. Cuando está deshabilitado, el agente completará su respuesta antes de aceptar nueva entrada.Casos de uso:
- Habilitado: Conversaciones naturales, atención al cliente, diálogos interactivos
- Deshabilitado: Anuncios importantes, exenciones legales, guiones estructurados
Duración de Habla de Interrupción
Duración de Habla de Interrupción
Duración mínima de habla antes de permitir interrupción (0-5 segundos)Controla cuánto tiempo debe hablar un usuario antes de que el agente reconozca como un intento de interrupción.
- Valores más bajos (0.2-0.5s): Más responsivo, pero puede activarse con interjecciones breves
- Valores más altos (1.0-2.0s): Más estable, requiere habla sostenida para interrumpir
Palabras Mínimas
Palabras Mínimas
Conteo mínimo de palabras antes de permitir interrupción (0-5 palabras)Requiere que el usuario hable un cierto número de palabras antes de reconocer una interrupción.
- 0 palabras: Interrumpe con cualquier detección de habla
- 1-2 palabras: Equilibrio entre responsividad y estabilidad
- 3-5 palabras: Requiere entrada sustancial antes de interrumpir
Retraso de Finalización
Retraso de Finalización
Retraso de silencio mínimo antes de considerar que el habla ha terminado (0-2 segundos)Cuánto tiempo esperar en silencio antes de determinar que el usuario ha terminado de hablar.
- Valores más bajos (0.2-0.5s): Respuestas más rápidas, pero pueden cortar pausas reflexivas
- Valores más altos (1.0-2.0s): Más paciente, permite pausas naturales y tiempo de pensamiento
Umbral VAD
Umbral VAD
Sensibilidad de detección de voz (0.0 - 1.0)Controla qué tan sensible es el sistema al detectar habla versus silencio o ruido.
- Valores más bajos (0.1-0.3): Menos sensible, requiere habla más clara
- Valores medios (0.4-0.6): Equilibrado para la mayoría de entornos
- Valores más altos (0.7-1.0): Más sensible, detecta habla más silenciosa
Relleno de Prefijo
Relleno de Prefijo
Buffer de audio antes de la detección de habla (0-500ms)Cantidad de audio a incluir antes de que se detecte el habla. Esto ayuda a prevenir cortar el inicio de palabras u oraciones.
- Valores más bajos (0-50ms): Buffer mínimo, riesgo de recortar inicio del habla
- Valores medios (100-200ms): Buen equilibrio para la mayoría de casos
- Valores más altos (300-500ms): Máxima preservación del inicio del habla
Duración de Silencio
Duración de Silencio
Umbral de silencio antes de finalizar turno (0-2000ms)Cuánto tiempo esperar en silencio antes de considerar que el habla del usuario ha terminado.
- Valores más bajos (100-300ms): Respuestas rápidas, pero pueden cortar pausas
- Valores medios (400-800ms): Equilibrado para conversación natural
- Valores más altos (1000-2000ms): Muy paciente, permite pausas de pensamiento largas
Generación Preventiva
Generación Preventiva
Comienza a generar respuestas antes de que se complete la detección de turnoCuando está habilitado, el agente comienza a generar una respuesta tan pronto como una transcripción final esté disponible, incluso antes de confirmar el fin de turno. Esto puede reducir la latencia percibida pero ocasionalmente puede generar respuestas que se cancelan si el usuario continúa hablando.Mejores prácticas:
- Funciona mejor con finalización inteligente habilitada
- Ideal para conversaciones sensibles al tiempo
- Puede aumentar los costos de API debido a generaciones canceladas
Mejores Prácticas de Configuración
Elegir las Configuraciones Correctas
Comienza con Preajustes
Comienza con el preajuste de sensibilidad Media para la mayoría de casos de uso. Prueba en tu entorno real antes de personalizar.
Prueba con Usuarios Reales
Diferentes acentos, patrones de habla y velocidades de habla pueden requerir diferentes configuraciones. Prueba con usuarios representativos.
Considera la Finalización Inteligente
Solo habilita la finalización inteligente si el agente interrumpe a los usuarios a mitad de turno con demasiada frecuencia y otras configuraciones (retraso de finalización, sensibilidad) no pueden solucionarlo. Recuerda que agrega latencia.
Ajusta Según el Entorno
Los entornos ruidosos se benefician de menor sensibilidad. Los entornos silenciosos pueden usar mayor sensibilidad para interacciones más responsivas.
Escenarios Comunes
Guía de Solución de Problemas
El agente corta a los usuarios a mitad de frase
El agente corta a los usuarios a mitad de frase
Síntomas: El agente comienza a responder antes de que los usuarios terminen de hablarSoluciones:
- Aumenta el retraso de finalización o duración de silencio
- Cambia a un preajuste de sensibilidad más baja
- Si usas configuraciones personalizadas, aumenta el requisito de palabras mínimas
- Considera habilitar la finalización inteligente como último recurso (agrega latencia)
El agente responde demasiado lentamente
El agente responde demasiado lentamente
Síntomas: Retraso notable entre que el usuario termina y el agente respondeSoluciones:
- Disminuye el retraso de finalización o duración de silencio
- Cambia a un preajuste de sensibilidad más alta
- Desactiva la finalización inteligente si está habilitada (reduce latencia)
- Habilita la generación preventiva
El agente no reconoce interrupciones
El agente no reconoce interrupciones
Síntomas: Los usuarios no pueden interrumpir al agente cuando está hablandoSoluciones:
- Asegúrate de que “Permitir Interrupciones” esté habilitado
- Disminuye la duración de habla de interrupción
- Reduce el requisito de palabras mínimas
- Cambia a preajuste de sensibilidad más alta
Activaciones falsas por ruido de fondo
Activaciones falsas por ruido de fondo
Síntomas: El agente responde a sonidos de fondo o ruidoSoluciones:
- Cambia a preajuste de sensibilidad más baja
- Disminuye el umbral VAD
- Aumenta el requisito de palabras mínimas
- Aumenta la duración de habla de interrupción
Habla perdida de usuarios que hablan suavemente
Habla perdida de usuarios que hablan suavemente
Síntomas: El agente no detecta cuando usuarios silenciosos están hablandoSoluciones:
- Cambia a preajuste de sensibilidad más alta
- Aumenta el umbral VAD
- Disminuye la duración de habla de interrupción
- Verifica la calidad del micrófono/entrada de audio
Características Relacionadas
Configuración de Voz
Configura la velocidad de voz, tono y otros parámetros TTS
Sonido Ambiente
Agrega audio de fondo para conversaciones más naturales
Pronunciaciones Personalizadas
Asegura la pronunciación correcta de nombres y términos técnicos
Controles DTMF
Configura la interacción con el teclado telefónico para navegación IVR