Saltar al contenido principal

Descripción General

Los controles de Detección de Actividad de Voz (VAD) y Detección de Turno permiten que tus agentes de IA reconozcan cuando los usuarios están hablando, detecten cuándo han terminado su turno y manejen las interrupciones de forma natural. Estas configuraciones son cruciales para crear conversaciones fluidas y similares a las humanas que se sientan responsivas sin cortar a los usuarios a mitad de frase. VAD y detección de turno trabajan juntos para determinar cuándo escuchar, cuándo responder y cómo manejar las interrupciones - transformando el reconocimiento básico de voz en interacciones conversacionales naturales.
Configuración de Detección de Actividad de Voz (VAD) mostrando barra lateral de navegación con sección de Operaciones expandida y Detección de Actividad de Voz seleccionada, alternador de Finalización Inteligente con icono de información y descripción, alternador de Permitir Interrupciones habilitado, alternador de Generación Preventiva, opciones de Sensibilidad de Detección de Voz (Baja, Media, Alta, Personalizada), y configuraciones avanzadas incluyendo control deslizante de Duración de Habla de Interrupción, control deslizante de Palabras Mínimas y control deslizante de Retraso de Finalización
Configuración de Detección de Actividad de Voz (VAD) mostrando barra lateral de navegación con sección de Operaciones expandida y Detección de Actividad de Voz seleccionada, alternador de Finalización Inteligente con icono de información y descripción, alternador de Permitir Interrupciones habilitado, alternador de Generación Preventiva, opciones de Sensibilidad de Detección de Voz (Baja, Media, Alta, Personalizada), y configuraciones avanzadas incluyendo control deslizante de Duración de Habla de Interrupción, control deslizante de Palabras Mínimas y control deslizante de Retraso de Finalización
Aplicación Universal: Las configuraciones de VAD y detección de turno se aplican a todos los tipos de conversación, incluyendo llamadas telefónicas (SIP/PSTN) y conversaciones basadas en web.La configuración está disponible en Configuración del Agente → Operaciones → Detección de Actividad de Voz (VAD). Las configuraciones incluyen preajustes de sensibilidad, finalización inteligente, manejo de interrupciones y parámetros de ajuste avanzado.

¿Qué es la Detección de Actividad de Voz?

Comprendiendo la Tecnología VAD

La Detección de Actividad de Voz (VAD) es la tecnología que determina cuándo alguien está hablando versus cuando hay silencio o ruido de fondo. Es la base para saber cuándo escuchar y cuándo un usuario ha terminado de hablar. Componentes clave:
  • Detección de Habla: Identifica cuándo comienza la actividad de voz
  • Detección de Silencio: Reconoce cuándo el habla ha terminado
  • Filtrado de Ruido: Distingue el habla de los sonidos de fondo

¿Qué es la Detección de Turno?

La detección de turno (también llamada “finalización”) determina cuándo un hablante ha terminado su turno conversacional y es momento de que el agente responda. Esto es más sofisticado que la simple detección de silencio, ya que tiene en cuenta las pausas naturales, el tiempo de pensamiento y el contexto conversacional.

Finalización Inteligente

Detección de Fin de Turno Impulsada por IA

La Finalización Inteligente utiliza un modelo de IA para detectar el fin de turno con mayor precisión que solo VAD básico. Esta característica avanzada ayuda a prevenir cortar a los usuarios durante pausas naturales mientras mantiene un flujo de conversación responsivo. Beneficios:
  • Reduce los cortes falsos durante pausas naturales
  • Mejora el manejo de interrupciones cuando los usuarios interrumpen
  • Maneja mejor oraciones de múltiples cláusulas
  • Tiene en cuenta el contexto conversacional
Compromiso de Latencia: La Finalización Inteligente agrega unos cientos de milisegundos de latencia a la detección de turno. Esto mejora la precisión pero hace que el agente sea ligeramente menos responsivo. Desactívala para aplicaciones críticas en tiempo donde la respuesta inmediata es más importante que la precisión de detección de turno.
Comportamiento de respaldo: Si el modelo de IA no está disponible, el sistema automáticamente recurre a la detección solo basada en VAD para asegurar un funcionamiento confiable.

Alternador de Finalización Inteligente

Activa o desactiva la detección de turno basada en IA. Cuando está desactivada, el sistema usa detección solo basada en VAD con tiempos de respuesta más rápidos.

Preajustes de Sensibilidad

Opciones de Configuración Rápida

Elige entre niveles de sensibilidad preconfigurados que equilibran la responsividad con la precisión. Cada preajuste ajusta automáticamente múltiples parámetros para un rendimiento óptimo en escenarios comunes.
Menos sensible, menos interrupcionesMejor para:
  • Entornos con ruido de fondo
  • Usuarios que hablan con pausas largas
  • Conversaciones formales que requieren paciencia
Sensibilidad equilibradaMejor para:
  • Conversaciones de propósito general
  • Entornos mixtos
  • La mayoría de casos de uso empresarial
Más sensible, respuestas más rápidasMejor para:
  • Conversaciones de ritmo rápido
  • Entornos de audio limpio
  • Interacciones sensibles al tiempo

Configuraciones Avanzadas

Configuración Personalizada

Para un control ajustado, cambia al modo “Personalizado” para acceder a parámetros avanzados. Estas configuraciones permiten un ajuste preciso para casos de uso o entornos específicos.

Manejo de Interrupciones

Interruptor principal para el manejo de interrupcionesCuando está habilitado, los usuarios pueden interrumpir al agente mientras está hablando. Cuando está deshabilitado, el agente completará su respuesta antes de aceptar nueva entrada.Casos de uso:
  • Habilitado: Conversaciones naturales, atención al cliente, diálogos interactivos
  • Deshabilitado: Anuncios importantes, exenciones legales, guiones estructurados
Duración mínima de habla antes de permitir interrupción (0-5 segundos)Controla cuánto tiempo debe hablar un usuario antes de que el agente reconozca como un intento de interrupción.
  • Valores más bajos (0.2-0.5s): Más responsivo, pero puede activarse con interjecciones breves
  • Valores más altos (1.0-2.0s): Más estable, requiere habla sostenida para interrumpir
Predeterminado: 0.5 segundos
Conteo mínimo de palabras antes de permitir interrupción (0-5 palabras)Requiere que el usuario hable un cierto número de palabras antes de reconocer una interrupción.
  • 0 palabras: Interrumpe con cualquier detección de habla
  • 1-2 palabras: Equilibrio entre responsividad y estabilidad
  • 3-5 palabras: Requiere entrada sustancial antes de interrumpir
Predeterminado: 0 palabras (interrumpe con cualquier habla)
Retraso de silencio mínimo antes de considerar que el habla ha terminado (0-2 segundos)Cuánto tiempo esperar en silencio antes de determinar que el usuario ha terminado de hablar.
  • Valores más bajos (0.2-0.5s): Respuestas más rápidas, pero pueden cortar pausas reflexivas
  • Valores más altos (1.0-2.0s): Más paciente, permite pausas naturales y tiempo de pensamiento
Predeterminado: 0.5 segundos
Sensibilidad de detección de voz (0.0 - 1.0)Controla qué tan sensible es el sistema al detectar habla versus silencio o ruido.
  • Valores más bajos (0.1-0.3): Menos sensible, requiere habla más clara
  • Valores medios (0.4-0.6): Equilibrado para la mayoría de entornos
  • Valores más altos (0.7-1.0): Más sensible, detecta habla más silenciosa
Predeterminado: 0.5
Valores muy bajos pueden perder usuarios que hablan suavemente. Valores muy altos pueden activarse con ruido de fondo.
Buffer de audio antes de la detección de habla (0-500ms)Cantidad de audio a incluir antes de que se detecte el habla. Esto ayuda a prevenir cortar el inicio de palabras u oraciones.
  • Valores más bajos (0-50ms): Buffer mínimo, riesgo de recortar inicio del habla
  • Valores medios (100-200ms): Buen equilibrio para la mayoría de casos
  • Valores más altos (300-500ms): Máxima preservación del inicio del habla
Predeterminado: 100ms
Umbral de silencio antes de finalizar turno (0-2000ms)Cuánto tiempo esperar en silencio antes de considerar que el habla del usuario ha terminado.
  • Valores más bajos (100-300ms): Respuestas rápidas, pero pueden cortar pausas
  • Valores medios (400-800ms): Equilibrado para conversación natural
  • Valores más altos (1000-2000ms): Muy paciente, permite pausas de pensamiento largas
Predeterminado: 500ms
Valores más altos funcionan bien para usuarios que piensan mientras hablan o tienen patrones de habla con pausas naturales.

Generación Preventiva

Generación Preventiva

Comienza a generar respuestas antes de que se complete la detección de turnoCuando está habilitado, el agente comienza a generar una respuesta tan pronto como una transcripción final esté disponible, incluso antes de confirmar el fin de turno. Esto puede reducir la latencia percibida pero ocasionalmente puede generar respuestas que se cancelan si el usuario continúa hablando.Mejores prácticas:
  • Funciona mejor con finalización inteligente habilitada
  • Ideal para conversaciones sensibles al tiempo
  • Puede aumentar los costos de API debido a generaciones canceladas
Predeterminado: Deshabilitado

Mejores Prácticas de Configuración

Elegir las Configuraciones Correctas

1

Comienza con Preajustes

Comienza con el preajuste de sensibilidad Media para la mayoría de casos de uso. Prueba en tu entorno real antes de personalizar.
2

Prueba con Usuarios Reales

Diferentes acentos, patrones de habla y velocidades de habla pueden requerir diferentes configuraciones. Prueba con usuarios representativos.
3

Considera la Finalización Inteligente

Solo habilita la finalización inteligente si el agente interrumpe a los usuarios a mitad de turno con demasiada frecuencia y otras configuraciones (retraso de finalización, sensibilidad) no pueden solucionarlo. Recuerda que agrega latencia.
4

Ajusta Según el Entorno

Los entornos ruidosos se benefician de menor sensibilidad. Los entornos silenciosos pueden usar mayor sensibilidad para interacciones más responsivas.
5

Considera el Caso de Uso

  • Atención al cliente: Sensibilidad media a alta
  • Recopilación de información: Sensibilidad media con interrupciones habilitadas
  • Anuncios: Sensibilidad baja con interrupciones deshabilitadas
  • Llamadas de ventas: Sensibilidad media a alta con interrupciones habilitadas

Escenarios Comunes

Guía de Solución de Problemas

Síntomas: El agente comienza a responder antes de que los usuarios terminen de hablarSoluciones:
  • Aumenta el retraso de finalización o duración de silencio
  • Cambia a un preajuste de sensibilidad más baja
  • Si usas configuraciones personalizadas, aumenta el requisito de palabras mínimas
  • Considera habilitar la finalización inteligente como último recurso (agrega latencia)
Síntomas: Retraso notable entre que el usuario termina y el agente respondeSoluciones:
  • Disminuye el retraso de finalización o duración de silencio
  • Cambia a un preajuste de sensibilidad más alta
  • Desactiva la finalización inteligente si está habilitada (reduce latencia)
  • Habilita la generación preventiva
Síntomas: Los usuarios no pueden interrumpir al agente cuando está hablandoSoluciones:
  • Asegúrate de que “Permitir Interrupciones” esté habilitado
  • Disminuye la duración de habla de interrupción
  • Reduce el requisito de palabras mínimas
  • Cambia a preajuste de sensibilidad más alta
Síntomas: El agente responde a sonidos de fondo o ruidoSoluciones:
  • Cambia a preajuste de sensibilidad más baja
  • Disminuye el umbral VAD
  • Aumenta el requisito de palabras mínimas
  • Aumenta la duración de habla de interrupción
Síntomas: El agente no detecta cuando usuarios silenciosos están hablandoSoluciones:
  • Cambia a preajuste de sensibilidad más alta
  • Aumenta el umbral VAD
  • Disminuye la duración de habla de interrupción
  • Verifica la calidad del micrófono/entrada de audio

Características Relacionadas