itellicoAI Documentation

Descripción General

Los controles de Detección de Actividad de Voz (VAD) y Detección de Turno permiten que tus agentes de IA reconozcan cuando los usuarios están hablando, detecten cuándo han terminado su turno y manejen las interrupciones de forma natural. Estas configuraciones son cruciales para crear conversaciones fluidas y similares a las humanas que se sientan responsivas sin cortar a los usuarios a mitad de frase. VAD y detección de turno trabajan juntos para determinar cuándo escuchar, cuándo responder y cómo manejar las interrupciones - transformando el reconocimiento básico de voz en interacciones conversacionales naturales.

Configuración de Detección de Actividad de Voz (VAD) mostrando barra lateral de navegación con sección de Operaciones expandida y Detección de Actividad de Voz seleccionada, alternador de Finalización Inteligente con icono de información y descripción, alternador de Permitir Interrupciones habilitado, alternador de Generación Preventiva, opciones de Sensibilidad de Detección de Voz (Baja, Media, Alta, Personalizada), y configuraciones avanzadas incluyendo control deslizante de Duración de Habla de Interrupción, control deslizante de Palabras Mínimas y control deslizante de Retraso de Finalización

Aplicación Universal: Las configuraciones de VAD y detección de turno se aplican a todos los tipos de conversación, incluyendo llamadas telefónicas (SIP/PSTN) y conversaciones basadas en web.La configuración está disponible en Configuración del Agente → Operaciones → Detección de Actividad de Voz (VAD). Las configuraciones incluyen preajustes de sensibilidad, finalización inteligente, manejo de interrupciones y parámetros de ajuste avanzado.

¿Qué es la Detección de Actividad de Voz?

Comprendiendo la Tecnología VAD

La Detección de Actividad de Voz (VAD) es la tecnología que determina cuándo alguien está hablando versus cuando hay silencio o ruido de fondo. Es la base para saber cuándo escuchar y cuándo un usuario ha terminado de hablar. Componentes clave:

Detección de Habla: Identifica cuándo comienza la actividad de voz
Detección de Silencio: Reconoce cuándo el habla ha terminado
Filtrado de Ruido: Distingue el habla de los sonidos de fondo

¿Qué es la Detección de Turno?

La detección de turno (también llamada “finalización”) determina cuándo un hablante ha terminado su turno conversacional y es momento de que el agente responda. Esto es más sofisticado que la simple detección de silencio, ya que tiene en cuenta las pausas naturales, el tiempo de pensamiento y el contexto conversacional.

Finalización Inteligente

Detección de Fin de Turno Impulsada por IA

La Finalización Inteligente utiliza un modelo de IA para detectar el fin de turno con mayor precisión que solo VAD básico. Esta característica avanzada ayuda a prevenir cortar a los usuarios durante pausas naturales mientras mantiene un flujo de conversación responsivo. Beneficios:

Reduce los cortes falsos durante pausas naturales
Mejora el manejo de interrupciones cuando los usuarios interrumpen
Maneja mejor oraciones de múltiples cláusulas
Tiene en cuenta el contexto conversacional

Compromiso de Latencia: La Finalización Inteligente agrega unos cientos de milisegundos de latencia a la detección de turno. Esto mejora la precisión pero hace que el agente sea ligeramente menos responsivo. Desactívala para aplicaciones críticas en tiempo donde la respuesta inmediata es más importante que la precisión de detección de turno.

Comportamiento de respaldo: Si el modelo de IA no está disponible, el sistema automáticamente recurre a la detección solo basada en VAD para asegurar un funcionamiento confiable.

Alternador de Finalización Inteligente

Activa o desactiva la detección de turno basada en IA. Cuando está desactivada, el sistema usa detección solo basada en VAD con tiempos de respuesta más rápidos.

Preajustes de Sensibilidad

Opciones de Configuración Rápida

Elige entre niveles de sensibilidad preconfigurados que equilibran la responsividad con la precisión. Cada preajuste ajusta automáticamente múltiples parámetros para un rendimiento óptimo en escenarios comunes.

Sensibilidad Baja

Menos sensible, menos interrupcionesMejor para:

Entornos con ruido de fondo
Usuarios que hablan con pausas largas
Conversaciones formales que requieren paciencia

Sensibilidad Media (Recomendada)

Sensibilidad equilibradaMejor para:

Conversaciones de propósito general
Entornos mixtos
La mayoría de casos de uso empresarial

Sensibilidad Alta

Más sensible, respuestas más rápidasMejor para:

Conversaciones de ritmo rápido
Entornos de audio limpio
Interacciones sensibles al tiempo

Configuraciones Avanzadas

Configuración Personalizada

Para un control ajustado, cambia al modo “Personalizado” para acceder a parámetros avanzados. Estas configuraciones permiten un ajuste preciso para casos de uso o entornos específicos.

Manejo de Interrupciones

Permitir Interrupciones

Interruptor principal para el manejo de interrupcionesCuando está habilitado, los usuarios pueden interrumpir al agente mientras está hablando. Cuando está deshabilitado, el agente completará su respuesta antes de aceptar nueva entrada.Casos de uso:

Habilitado: Conversaciones naturales, atención al cliente, diálogos interactivos
Deshabilitado: Anuncios importantes, exenciones legales, guiones estructurados

Duración de Habla de Interrupción

Duración mínima de habla antes de permitir interrupción (0-5 segundos)Controla cuánto tiempo debe hablar un usuario antes de que el agente reconozca como un intento de interrupción.

Valores más bajos (0.2-0.5s): Más responsivo, pero puede activarse con interjecciones breves
Valores más altos (1.0-2.0s): Más estable, requiere habla sostenida para interrumpir

Predeterminado: 0.5 segundos

Palabras Mínimas

Conteo mínimo de palabras antes de permitir interrupción (0-5 palabras)Requiere que el usuario hable un cierto número de palabras antes de reconocer una interrupción.

0 palabras: Interrumpe con cualquier detección de habla
1-2 palabras: Equilibrio entre responsividad y estabilidad
3-5 palabras: Requiere entrada sustancial antes de interrumpir

Predeterminado: 0 palabras (interrumpe con cualquier habla)

Retraso de Finalización

Retraso de silencio mínimo antes de considerar que el habla ha terminado (0-2 segundos)Cuánto tiempo esperar en silencio antes de determinar que el usuario ha terminado de hablar.

Valores más bajos (0.2-0.5s): Respuestas más rápidas, pero pueden cortar pausas reflexivas
Valores más altos (1.0-2.0s): Más paciente, permite pausas naturales y tiempo de pensamiento

Predeterminado: 0.5 segundos

Umbral VAD

Sensibilidad de detección de voz (0.0 - 1.0)Controla qué tan sensible es el sistema al detectar habla versus silencio o ruido.

Valores más bajos (0.1-0.3): Menos sensible, requiere habla más clara
Valores medios (0.4-0.6): Equilibrado para la mayoría de entornos
Valores más altos (0.7-1.0): Más sensible, detecta habla más silenciosa

Predeterminado: 0.5

Valores muy bajos pueden perder usuarios que hablan suavemente. Valores muy altos pueden activarse con ruido de fondo.

Relleno de Prefijo

Buffer de audio antes de la detección de habla (0-500ms)Cantidad de audio a incluir antes de que se detecte el habla. Esto ayuda a prevenir cortar el inicio de palabras u oraciones.

Valores más bajos (0-50ms): Buffer mínimo, riesgo de recortar inicio del habla
Valores medios (100-200ms): Buen equilibrio para la mayoría de casos
Valores más altos (300-500ms): Máxima preservación del inicio del habla

Predeterminado: 100ms

Duración de Silencio

Umbral de silencio antes de finalizar turno (0-2000ms)Cuánto tiempo esperar en silencio antes de considerar que el habla del usuario ha terminado.

Valores más bajos (100-300ms): Respuestas rápidas, pero pueden cortar pausas
Valores medios (400-800ms): Equilibrado para conversación natural
Valores más altos (1000-2000ms): Muy paciente, permite pausas de pensamiento largas

Predeterminado: 500ms

Valores más altos funcionan bien para usuarios que piensan mientras hablan o tienen patrones de habla con pausas naturales.

Generación Preventiva

Comienza a generar respuestas antes de que se complete la detección de turnoCuando está habilitado, el agente comienza a generar una respuesta tan pronto como una transcripción final esté disponible, incluso antes de confirmar el fin de turno. Esto puede reducir la latencia percibida pero ocasionalmente puede generar respuestas que se cancelan si el usuario continúa hablando.Mejores prácticas:

Funciona mejor con finalización inteligente habilitada
Ideal para conversaciones sensibles al tiempo
Puede aumentar los costos de API debido a generaciones canceladas

Predeterminado: Deshabilitado

Mejores Prácticas de Configuración

Elegir las Configuraciones Correctas

Comienza con Preajustes

Comienza con el preajuste de sensibilidad Media para la mayoría de casos de uso. Prueba en tu entorno real antes de personalizar.

Prueba con Usuarios Reales

Diferentes acentos, patrones de habla y velocidades de habla pueden requerir diferentes configuraciones. Prueba con usuarios representativos.

Considera la Finalización Inteligente

Solo habilita la finalización inteligente si el agente interrumpe a los usuarios a mitad de turno con demasiada frecuencia y otras configuraciones (retraso de finalización, sensibilidad) no pueden solucionarlo. Recuerda que agrega latencia.

Ajusta Según el Entorno

Los entornos ruidosos se benefician de menor sensibilidad. Los entornos silenciosos pueden usar mayor sensibilidad para interacciones más responsivas.

Considera el Caso de Uso

Atención al cliente: Sensibilidad media a alta
Recopilación de información: Sensibilidad media con interrupciones habilitadas
Anuncios: Sensibilidad baja con interrupciones deshabilitadas
Llamadas de ventas: Sensibilidad media a alta con interrupciones habilitadas

Escenarios Comunes

Guía de Solución de Problemas

El agente corta a los usuarios a mitad de frase

Síntomas: El agente comienza a responder antes de que los usuarios terminen de hablarSoluciones:

Aumenta el retraso de finalización o duración de silencio
Cambia a un preajuste de sensibilidad más baja
Si usas configuraciones personalizadas, aumenta el requisito de palabras mínimas
Considera habilitar la finalización inteligente como último recurso (agrega latencia)

El agente responde demasiado lentamente

Síntomas: Retraso notable entre que el usuario termina y el agente respondeSoluciones:

Disminuye el retraso de finalización o duración de silencio
Cambia a un preajuste de sensibilidad más alta
Desactiva la finalización inteligente si está habilitada (reduce latencia)
Habilita la generación preventiva

El agente no reconoce interrupciones

Síntomas: Los usuarios no pueden interrumpir al agente cuando está hablandoSoluciones:

Asegúrate de que “Permitir Interrupciones” esté habilitado
Disminuye la duración de habla de interrupción
Reduce el requisito de palabras mínimas
Cambia a preajuste de sensibilidad más alta

Activaciones falsas por ruido de fondo

Síntomas: El agente responde a sonidos de fondo o ruidoSoluciones:

Cambia a preajuste de sensibilidad más baja
Disminuye el umbral VAD
Aumenta el requisito de palabras mínimas
Aumenta la duración de habla de interrupción

Habla perdida de usuarios que hablan suavemente

Síntomas: El agente no detecta cuando usuarios silenciosos están hablandoSoluciones:

Cambia a preajuste de sensibilidad más alta
Aumenta el umbral VAD
Disminuye la duración de habla de interrupción
Verifica la calidad del micrófono/entrada de audio

Características Relacionadas

Configuración de Voz

Configura la velocidad de voz, tono y otros parámetros TTS

Sonido Ambiente

Agrega audio de fondo para conversaciones más naturales

Pronunciaciones Personalizadas

Asegura la pronunciación correcta de nombres y términos técnicos

Controles DTMF

Configura la interacción con el teclado telefónico para navegación IVR

Primeros pasos

Crear

Probar

Lanzar

Optimizar

Cuentas y subcuentas

Red de socios

Legal

Detección de Actividad de Voz y Detección de Turno

Descripción General

¿Qué es la Detección de Actividad de Voz?

Comprendiendo la Tecnología VAD

¿Qué es la Detección de Turno?

Finalización Inteligente

Detección de Fin de Turno Impulsada por IA

Alternador de Finalización Inteligente

Preajustes de Sensibilidad

Opciones de Configuración Rápida

Configuraciones Avanzadas

Configuración Personalizada

Manejo de Interrupciones

Generación Preventiva

Generación Preventiva

Mejores Prácticas de Configuración

Elegir las Configuraciones Correctas

Escenarios Comunes

Guía de Solución de Problemas

Características Relacionadas

Configuración de Voz

Sonido Ambiente

Pronunciaciones Personalizadas

Controles DTMF

Primeros pasos

Crear

Probar

Lanzar

Optimizar

Cuentas y subcuentas

Red de socios

Legal

​Descripción General

​¿Qué es la Detección de Actividad de Voz?

​Comprendiendo la Tecnología VAD

​¿Qué es la Detección de Turno?

​Finalización Inteligente

​Detección de Fin de Turno Impulsada por IA

Alternador de Finalización Inteligente

​Preajustes de Sensibilidad

​Opciones de Configuración Rápida

​Configuraciones Avanzadas

​Configuración Personalizada

​Manejo de Interrupciones

​Generación Preventiva

Generación Preventiva

​Mejores Prácticas de Configuración

​Elegir las Configuraciones Correctas

​Escenarios Comunes

​Guía de Solución de Problemas

​Características Relacionadas

Configuración de Voz

Sonido Ambiente

Pronunciaciones Personalizadas

Controles DTMF

Descripción General

¿Qué es la Detección de Actividad de Voz?

Comprendiendo la Tecnología VAD

¿Qué es la Detección de Turno?

Finalización Inteligente

Detección de Fin de Turno Impulsada por IA

Preajustes de Sensibilidad

Opciones de Configuración Rápida

Configuraciones Avanzadas

Configuración Personalizada

Manejo de Interrupciones

Generación Preventiva

Mejores Prácticas de Configuración

Elegir las Configuraciones Correctas

Escenarios Comunes

Guía de Solución de Problemas

Características Relacionadas