Visão Geral
Os controles de Detecção de Atividade de Voz (VAD) e Detecção de Turno permitem que seus agentes de IA reconheçam quando os usuários estão falando, detectem quando terminaram seu turno e lidem com interrupções naturalmente. Essas configurações são cruciais para criar conversas suaves e humanizadas que pareçam responsivas sem cortar os usuários no meio da frase. VAD e detecção de turno trabalham juntos para determinar quando ouvir, quando responder e como lidar com interrupções - transformando o reconhecimento básico de fala em interações conversacionais naturais.

Aplicação Universal: As configurações de VAD e detecção de turno se aplicam a todos os tipos de conversa, incluindo chamadas telefônicas (SIP/PSTN) e conversas baseadas na web.A configuração está disponível em Configurações do Agente → Operações → Detecção de Atividade de Voz (VAD). As configurações incluem predefinições de sensibilidade, endpointing inteligente, tratamento de interrupções e parâmetros avançados de ajuste.
O que é Detecção de Atividade de Voz?
Compreendendo a Tecnologia VAD
A Detecção de Atividade de Voz (VAD) é a tecnologia que determina quando alguém está falando versus quando há silêncio ou ruído de fundo. É a base para saber quando ouvir e quando um usuário terminou de falar. Componentes principais:- Detecção de Fala: Identifica quando a atividade de voz começa
- Detecção de Silêncio: Reconhece quando a fala terminou
- Filtragem de Ruído: Distingue fala de sons de fundo
O que é Detecção de Turno?
A detecção de turno (também chamada de “endpointing”) determina quando um locutor terminou seu turno conversacional e é hora de o agente responder. Isso é mais sofisticado do que a simples detecção de silêncio, pois leva em conta pausas naturais, tempo de reflexão e contexto conversacional.Endpointing Inteligente
Detecção de Turno Alimentada por IA
O Endpointing Inteligente usa um modelo de IA para detectar o fim do turno com mais precisão do que apenas o VAD básico. Este recurso avançado ajuda a evitar cortar os usuários durante pausas naturais, mantendo ainda um fluxo de conversa responsivo. Benefícios:- Reduz cortes falsos durante pausas naturais
- Melhora o tratamento de interrupções quando os usuários interrompem
- Lida melhor com frases de múltiplas cláusulas
- Considera o contexto conversacional
Alternância de Endpointing Inteligente
Ative ou desative a detecção de turno baseada em IA. Quando desativado, o sistema usa detecção apenas por VAD com tempos de resposta mais rápidos.
Predefinições de Sensibilidade
Opções de Configuração Rápida
Escolha entre níveis de sensibilidade pré-configurados que equilibram responsividade com precisão. Cada predefinição ajusta automaticamente múltiplos parâmetros para desempenho ideal em cenários comuns.Sensibilidade Baixa
Sensibilidade Baixa
Menos sensível, menos interrupçõesMelhor para:
- Ambientes com ruído de fundo
- Usuários que falam com longas pausas
- Conversas formais que exigem paciência
Sensibilidade Média (Recomendada)
Sensibilidade Média (Recomendada)
Sensibilidade equilibradaMelhor para:
- Conversas de propósito geral
- Ambientes mistos
- Maioria dos casos de uso empresariais
Sensibilidade Alta
Sensibilidade Alta
Mais sensível, respostas mais rápidasMelhor para:
- Conversas de ritmo rápido
- Ambientes de áudio limpos
- Interações críticas em termos de tempo
Configurações Avançadas
Configuração Personalizada
Para controle ajustado, mude para o modo “Personalizado” para acessar parâmetros avançados. Essas configurações permitem ajuste preciso para casos de uso ou ambientes específicos.Tratamento de Interrupções
Permitir Interrupções
Permitir Interrupções
Interruptor mestre para tratamento de interrupçõesQuando ativado, os usuários podem interromper o agente enquanto ele está falando. Quando desativado, o agente completará sua resposta antes de aceitar nova entrada.Casos de uso:
- Ativado: Conversas naturais, suporte ao cliente, diálogos interativos
- Desativado: Anúncios importantes, avisos legais, scripts estruturados
Duração da Fala para Interrupção
Duração da Fala para Interrupção
Duração mínima de fala antes de permitir interrupção (0-5 segundos)Controla quanto tempo um usuário deve falar antes que o agente reconheça como uma tentativa de interrupção.
- Valores menores (0.2-0.5s): Mais responsivo, mas pode ativar em interjeições breves
- Valores maiores (1.0-2.0s): Mais estável, requer fala sustentada para interromper
Palavras Mínimas
Palavras Mínimas
Contagem mínima de palavras antes de permitir interrupção (0-5 palavras)Requer que o usuário fale um certo número de palavras antes de reconhecer uma interrupção.
- 0 palavras: Interromper com qualquer detecção de fala
- 1-2 palavras: Equilíbrio entre responsividade e estabilidade
- 3-5 palavras: Requer entrada substancial antes de interromper
Atraso de Endpointing
Atraso de Endpointing
Atraso mínimo de silêncio antes de considerar a fala encerrada (0-2 segundos)Quanto tempo esperar em silêncio antes de determinar que o usuário terminou de falar.
- Valores menores (0.2-0.5s): Respostas mais rápidas, mas pode cortar pausas reflexivas
- Valores maiores (1.0-2.0s): Mais paciente, permite pausas naturais e tempo de reflexão
Limiar VAD
Limiar VAD
Sensibilidade da detecção de voz (0.0 - 1.0)Controla quão sensível é o sistema ao detectar fala versus silêncio ou ruído.
- Valores menores (0.1-0.3): Menos sensível, requer fala mais clara
- Valores médios (0.4-0.6): Equilibrado para a maioria dos ambientes
- Valores maiores (0.7-1.0): Mais sensível, detecta fala mais baixa
Preenchimento de Prefixo
Preenchimento de Prefixo
Buffer de áudio antes da detecção de fala (0-500ms)Quantidade de áudio a incluir antes da detecção da fala. Isso ajuda a evitar cortar o início de palavras ou frases.
- Valores menores (0-50ms): Buffer mínimo, risco de cortar início da fala
- Valores médios (100-200ms): Bom equilíbrio para a maioria dos casos
- Valores maiores (300-500ms): Máxima preservação do início da fala
Duração do Silêncio
Duração do Silêncio
Limiar de silêncio antes de encerrar turno (0-2000ms)Quanto tempo esperar em silêncio antes de considerar que a fala do usuário terminou.
- Valores menores (100-300ms): Respostas rápidas, mas pode cortar pausas
- Valores médios (400-800ms): Equilibrado para conversa natural
- Valores maiores (1000-2000ms): Muito paciente, permite longas pausas reflexivas
Geração Preemptiva
Geração Preemptiva
Comece a gerar respostas antes da conclusão da detecção de turnoQuando ativado, o agente começa a gerar uma resposta assim que uma transcrição final está disponível, mesmo antes de confirmar o fim do turno. Isso pode reduzir a latência percebida, mas pode ocasionalmente gerar respostas que sejam canceladas se o usuário continuar falando.Melhores práticas:
- Funciona melhor com endpointing inteligente ativado
- Ideal para conversas críticas em termos de tempo
- Pode aumentar custos de API devido a gerações canceladas
Melhores Práticas de Configuração
Escolhendo as Configurações Certas
Comece com Predefinições
Comece com a predefinição de sensibilidade Média para a maioria dos casos de uso. Teste em seu ambiente real antes de personalizar.
Teste com Usuários Reais
Diferentes sotaques, padrões de fala e velocidades de fala podem exigir configurações diferentes. Teste com usuários representativos.
Considere o Endpointing Inteligente
Somente ative o endpointing inteligente se o agente interromper os usuários no meio do turno com muita frequência e outras configurações (atraso de endpointing, sensibilidade) não puderem corrigir. Lembre-se de que adiciona latência.
Ajuste Baseado no Ambiente
Ambientes ruidosos se beneficiam de sensibilidade menor. Ambientes silenciosos podem usar sensibilidade maior para interações mais responsivas.
Cenários Comuns
Guia de Solução de Problemas
Agente corta usuários no meio da frase
Agente corta usuários no meio da frase
Sintomas: Agente começa a responder antes dos usuários terminarem de falarSoluções:
- Aumentar atraso de endpointing ou duração de silêncio
- Mudar para uma predefinição de sensibilidade menor
- Se usar configurações personalizadas, aumentar o requisito de palavras mínimas
- Considere ativar endpointing inteligente como último recurso (adiciona latência)
Agente responde muito lentamente
Agente responde muito lentamente
Sintomas: Atraso perceptível entre o usuário terminar e o agente responderSoluções:
- Diminuir atraso de endpointing ou duração de silêncio
- Mudar para uma predefinição de sensibilidade maior
- Desativar endpointing inteligente se ativado (reduz latência)
- Ativar geração preemptiva
Agente não reconhece interrupções
Agente não reconhece interrupções
Sintomas: Usuários não conseguem interromper o agente quando falaSoluções:
- Garantir que “Permitir Interrupções” esteja ativado
- Diminuir duração da fala para interrupção
- Reduzir requisito de palavras mínimas
- Mudar para predefinição de sensibilidade maior
Acionamentos falsos por ruído de fundo
Acionamentos falsos por ruído de fundo
Sintomas: Agente responde a sons de fundo ou ruídoSoluções:
- Mudar para predefinição de sensibilidade menor
- Diminuir limiar VAD
- Aumentar requisito de palavras mínimas
- Aumentar duração da fala para interrupção
Fala perdida de usuários que falam baixo
Fala perdida de usuários que falam baixo
Sintomas: Agente não detecta quando usuários silenciosos estão falandoSoluções:
- Mudar para predefinição de sensibilidade maior
- Aumentar limiar VAD
- Diminuir duração da fala para interrupção
- Verificar qualidade do microfone/entrada de áudio