itellicoAI Documentation

Visão Geral

Os controles de Detecção de Atividade de Voz (VAD) e Detecção de Turno permitem que seus agentes de IA reconheçam quando os usuários estão falando, detectem quando terminaram seu turno e lidem com interrupções naturalmente. Essas configurações são cruciais para criar conversas suaves e humanizadas que pareçam responsivas sem cortar os usuários no meio da frase. VAD e detecção de turno trabalham juntos para determinar quando ouvir, quando responder e como lidar com interrupções - transformando o reconhecimento básico de fala em interações conversacionais naturais.

Configuração de Detecção de Atividade de Voz (VAD) mostrando barra lateral de navegação com seção Operations expandida e Voice Activity Detection selecionada, alternância Smart Endpointing com ícone de informação e descrição, alternância Allow Interruptions ativada, alternância Preemptive Generation, opções Voice Detection Sensitivity (Baixa, Média, Alta, Personalizada), e configurações avançadas incluindo controle deslizante Interrupt Speech Duration, controle deslizante Minimum Words e controle deslizante Endpointing Delay

Aplicação Universal: As configurações de VAD e detecção de turno se aplicam a todos os tipos de conversa, incluindo chamadas telefônicas (SIP/PSTN) e conversas baseadas na web.A configuração está disponível em Configurações do Agente → Operações → Detecção de Atividade de Voz (VAD). As configurações incluem predefinições de sensibilidade, endpointing inteligente, tratamento de interrupções e parâmetros avançados de ajuste.

O que é Detecção de Atividade de Voz?

Compreendendo a Tecnologia VAD

A Detecção de Atividade de Voz (VAD) é a tecnologia que determina quando alguém está falando versus quando há silêncio ou ruído de fundo. É a base para saber quando ouvir e quando um usuário terminou de falar. Componentes principais:

Detecção de Fala: Identifica quando a atividade de voz começa
Detecção de Silêncio: Reconhece quando a fala terminou
Filtragem de Ruído: Distingue fala de sons de fundo

O que é Detecção de Turno?

A detecção de turno (também chamada de “endpointing”) determina quando um locutor terminou seu turno conversacional e é hora de o agente responder. Isso é mais sofisticado do que a simples detecção de silêncio, pois leva em conta pausas naturais, tempo de reflexão e contexto conversacional.

Endpointing Inteligente

Detecção de Turno Alimentada por IA

O Endpointing Inteligente usa um modelo de IA para detectar o fim do turno com mais precisão do que apenas o VAD básico. Este recurso avançado ajuda a evitar cortar os usuários durante pausas naturais, mantendo ainda um fluxo de conversa responsivo. Benefícios:

Reduz cortes falsos durante pausas naturais
Melhora o tratamento de interrupções quando os usuários interrompem
Lida melhor com frases de múltiplas cláusulas
Considera o contexto conversacional

Compensação de Latência: O Endpointing Inteligente adiciona algumas centenas de milissegundos de latência à detecção de turno. Isso melhora a precisão, mas torna o agente ligeiramente menos responsivo. Desative-o para aplicações críticas em termos de tempo onde a resposta imediata é mais importante que a precisão da detecção de turno.

Comportamento de fallback: Se o modelo de IA estiver indisponível, o sistema volta automaticamente para a detecção apenas por VAD para garantir operação confiável.

Alternância de Endpointing Inteligente

Ative ou desative a detecção de turno baseada em IA. Quando desativado, o sistema usa detecção apenas por VAD com tempos de resposta mais rápidos.

Predefinições de Sensibilidade

Opções de Configuração Rápida

Escolha entre níveis de sensibilidade pré-configurados que equilibram responsividade com precisão. Cada predefinição ajusta automaticamente múltiplos parâmetros para desempenho ideal em cenários comuns.

Sensibilidade Baixa

Menos sensível, menos interrupçõesMelhor para:

Ambientes com ruído de fundo
Usuários que falam com longas pausas
Conversas formais que exigem paciência

Sensibilidade Média (Recomendada)

Sensibilidade equilibradaMelhor para:

Conversas de propósito geral
Ambientes mistos
Maioria dos casos de uso empresariais

Sensibilidade Alta

Mais sensível, respostas mais rápidasMelhor para:

Conversas de ritmo rápido
Ambientes de áudio limpos
Interações críticas em termos de tempo

Configurações Avançadas

Configuração Personalizada

Para controle ajustado, mude para o modo “Personalizado” para acessar parâmetros avançados. Essas configurações permitem ajuste preciso para casos de uso ou ambientes específicos.

Tratamento de Interrupções

Permitir Interrupções

Interruptor mestre para tratamento de interrupçõesQuando ativado, os usuários podem interromper o agente enquanto ele está falando. Quando desativado, o agente completará sua resposta antes de aceitar nova entrada.Casos de uso:

Ativado: Conversas naturais, suporte ao cliente, diálogos interativos
Desativado: Anúncios importantes, avisos legais, scripts estruturados

Duração da Fala para Interrupção

Duração mínima de fala antes de permitir interrupção (0-5 segundos)Controla quanto tempo um usuário deve falar antes que o agente reconheça como uma tentativa de interrupção.

Valores menores (0.2-0.5s): Mais responsivo, mas pode ativar em interjeições breves
Valores maiores (1.0-2.0s): Mais estável, requer fala sustentada para interromper

Padrão: 0.5 segundos

Palavras Mínimas

Contagem mínima de palavras antes de permitir interrupção (0-5 palavras)Requer que o usuário fale um certo número de palavras antes de reconhecer uma interrupção.

0 palavras: Interromper com qualquer detecção de fala
1-2 palavras: Equilíbrio entre responsividade e estabilidade
3-5 palavras: Requer entrada substancial antes de interromper

Padrão: 0 palavras (interromper com qualquer fala)

Atraso de Endpointing

Atraso mínimo de silêncio antes de considerar a fala encerrada (0-2 segundos)Quanto tempo esperar em silêncio antes de determinar que o usuário terminou de falar.

Valores menores (0.2-0.5s): Respostas mais rápidas, mas pode cortar pausas reflexivas
Valores maiores (1.0-2.0s): Mais paciente, permite pausas naturais e tempo de reflexão

Padrão: 0.5 segundos

Limiar VAD

Sensibilidade da detecção de voz (0.0 - 1.0)Controla quão sensível é o sistema ao detectar fala versus silêncio ou ruído.

Valores menores (0.1-0.3): Menos sensível, requer fala mais clara
Valores médios (0.4-0.6): Equilibrado para a maioria dos ambientes
Valores maiores (0.7-1.0): Mais sensível, detecta fala mais baixa

Padrão: 0.5

Valores muito baixos podem perder usuários que falam baixo. Valores muito altos podem ser ativados por ruído de fundo.

Preenchimento de Prefixo

Buffer de áudio antes da detecção de fala (0-500ms)Quantidade de áudio a incluir antes da detecção da fala. Isso ajuda a evitar cortar o início de palavras ou frases.

Valores menores (0-50ms): Buffer mínimo, risco de cortar início da fala
Valores médios (100-200ms): Bom equilíbrio para a maioria dos casos
Valores maiores (300-500ms): Máxima preservação do início da fala

Padrão: 100ms

Duração do Silêncio

Limiar de silêncio antes de encerrar turno (0-2000ms)Quanto tempo esperar em silêncio antes de considerar que a fala do usuário terminou.

Valores menores (100-300ms): Respostas rápidas, mas pode cortar pausas
Valores médios (400-800ms): Equilibrado para conversa natural
Valores maiores (1000-2000ms): Muito paciente, permite longas pausas reflexivas

Padrão: 500ms

Valores maiores funcionam bem para usuários que pensam enquanto falam ou têm padrões de fala com pausas naturais.

Geração Preemptiva

Comece a gerar respostas antes da conclusão da detecção de turnoQuando ativado, o agente começa a gerar uma resposta assim que uma transcrição final está disponível, mesmo antes de confirmar o fim do turno. Isso pode reduzir a latência percebida, mas pode ocasionalmente gerar respostas que sejam canceladas se o usuário continuar falando.Melhores práticas:

Funciona melhor com endpointing inteligente ativado
Ideal para conversas críticas em termos de tempo
Pode aumentar custos de API devido a gerações canceladas

Padrão: Desativado

Melhores Práticas de Configuração

Escolhendo as Configurações Certas

Comece com Predefinições

Comece com a predefinição de sensibilidade Média para a maioria dos casos de uso. Teste em seu ambiente real antes de personalizar.

Teste com Usuários Reais

Diferentes sotaques, padrões de fala e velocidades de fala podem exigir configurações diferentes. Teste com usuários representativos.

Considere o Endpointing Inteligente

Somente ative o endpointing inteligente se o agente interromper os usuários no meio do turno com muita frequência e outras configurações (atraso de endpointing, sensibilidade) não puderem corrigir. Lembre-se de que adiciona latência.

Ajuste Baseado no Ambiente

Ambientes ruidosos se beneficiam de sensibilidade menor. Ambientes silenciosos podem usar sensibilidade maior para interações mais responsivas.

Considere o Caso de Uso

Suporte ao cliente: Sensibilidade média a alta
Coleta de informações: Sensibilidade média com interrupções ativadas
Anúncios: Sensibilidade baixa com interrupções desativadas
Chamadas de vendas: Sensibilidade média a alta com interrupções ativadas

Cenários Comuns

Guia de Solução de Problemas

Agente corta usuários no meio da frase

Sintomas: Agente começa a responder antes dos usuários terminarem de falarSoluções:

Aumentar atraso de endpointing ou duração de silêncio
Mudar para uma predefinição de sensibilidade menor
Se usar configurações personalizadas, aumentar o requisito de palavras mínimas
Considere ativar endpointing inteligente como último recurso (adiciona latência)

Agente responde muito lentamente

Sintomas: Atraso perceptível entre o usuário terminar e o agente responderSoluções:

Diminuir atraso de endpointing ou duração de silêncio
Mudar para uma predefinição de sensibilidade maior
Desativar endpointing inteligente se ativado (reduz latência)
Ativar geração preemptiva

Agente não reconhece interrupções

Sintomas: Usuários não conseguem interromper o agente quando falaSoluções:

Garantir que “Permitir Interrupções” esteja ativado
Diminuir duração da fala para interrupção
Reduzir requisito de palavras mínimas
Mudar para predefinição de sensibilidade maior

Acionamentos falsos por ruído de fundo

Sintomas: Agente responde a sons de fundo ou ruídoSoluções:

Mudar para predefinição de sensibilidade menor
Diminuir limiar VAD
Aumentar requisito de palavras mínimas
Aumentar duração da fala para interrupção

Fala perdida de usuários que falam baixo

Sintomas: Agente não detecta quando usuários silenciosos estão falandoSoluções:

Mudar para predefinição de sensibilidade maior
Aumentar limiar VAD
Diminuir duração da fala para interrupção
Verificar qualidade do microfone/entrada de áudio

Recursos Relacionados

Configurações de Voz

Configure velocidade de voz, tom e outros parâmetros de TTS

Som Ambiente

Adicione áudio de fundo para conversas mais naturais

Pronúncias Personalizadas

Garanta pronúncia adequada de nomes e termos técnicos

Controles DTMF

Configure interação do teclado telefônico para navegação IVR

Primeiros passos

Criar

Testar

Lançar

Otimizar

Contas e subcontas

Rede de parceiros

Legal

Detecção de Atividade de Voz e Alternância de Turnos

Visão Geral

O que é Detecção de Atividade de Voz?

Compreendendo a Tecnologia VAD

O que é Detecção de Turno?

Endpointing Inteligente

Detecção de Turno Alimentada por IA

Alternância de Endpointing Inteligente

Predefinições de Sensibilidade

Opções de Configuração Rápida

Configurações Avançadas

Configuração Personalizada

Tratamento de Interrupções

Geração Preemptiva

Geração Preemptiva

Melhores Práticas de Configuração

Escolhendo as Configurações Certas

Cenários Comuns

Guia de Solução de Problemas

Recursos Relacionados

Configurações de Voz

Som Ambiente

Pronúncias Personalizadas

Controles DTMF

Primeiros passos

Criar

Testar

Lançar

Otimizar

Contas e subcontas

Rede de parceiros

Legal

​Visão Geral

​O que é Detecção de Atividade de Voz?

​Compreendendo a Tecnologia VAD

​O que é Detecção de Turno?

​Endpointing Inteligente

​Detecção de Turno Alimentada por IA

Alternância de Endpointing Inteligente

​Predefinições de Sensibilidade

​Opções de Configuração Rápida

​Configurações Avançadas

​Configuração Personalizada

​Tratamento de Interrupções

​Geração Preemptiva

Geração Preemptiva

​Melhores Práticas de Configuração

​Escolhendo as Configurações Certas

​Cenários Comuns

​Guia de Solução de Problemas

​Recursos Relacionados

Configurações de Voz

Som Ambiente

Pronúncias Personalizadas

Controles DTMF

Visão Geral

O que é Detecção de Atividade de Voz?

Compreendendo a Tecnologia VAD

O que é Detecção de Turno?

Endpointing Inteligente

Detecção de Turno Alimentada por IA

Predefinições de Sensibilidade

Opções de Configuração Rápida

Configurações Avançadas

Configuração Personalizada

Tratamento de Interrupções

Geração Preemptiva

Melhores Práticas de Configuração

Escolhendo as Configurações Certas

Cenários Comuns

Guia de Solução de Problemas

Recursos Relacionados