Vai al contenuto principale

Panoramica

Il Rilevamento dell’Attività Vocale (VAD) e i controlli di Turn Detection consentono ai tuoi agenti AI di riconoscere quando gli utenti stanno parlando, rilevare quando hanno terminato il loro turno e gestire le interruzioni in modo naturale. Queste impostazioni sono fondamentali per creare conversazioni fluide e simili a quelle umane che risultano reattive senza interrompere gli utenti a metà frase. VAD e turn detection lavorano insieme per determinare quando ascoltare, quando rispondere e come gestire le interruzioni - trasformando il riconoscimento vocale di base in interazioni conversazionali naturali.
Configurazione del Rilevamento dell'Attività Vocale (VAD) che mostra la barra di navigazione laterale con la sezione Operations espansa e Voice Activity Detection selezionato, toggle Smart Endpointing con icona info e descrizione, toggle Allow Interruptions abilitato, toggle Preemptive Generation, opzioni Voice Detection Sensitivity (Low, Medium, High, Custom) e impostazioni avanzate inclusi slider Interrupt Speech Duration, Minimum Words ed Endpointing Delay
Configurazione del Rilevamento dell'Attività Vocale (VAD) che mostra la barra di navigazione laterale con la sezione Operations espansa e Voice Activity Detection selezionato, toggle Smart Endpointing con icona info e descrizione, toggle Allow Interruptions abilitato, toggle Preemptive Generation, opzioni Voice Detection Sensitivity (Low, Medium, High, Custom) e impostazioni avanzate inclusi slider Interrupt Speech Duration, Minimum Words ed Endpointing Delay
Applicazione Universale: Le impostazioni VAD e turn detection si applicano a tutti i tipi di conversazione, comprese le chiamate telefoniche (SIP/PSTN) e le conversazioni basate sul web.La configurazione è disponibile in Impostazioni Agente → Operations → Voice Activity Detection (VAD). Le impostazioni includono preset di sensibilità, smart endpointing, gestione delle interruzioni e parametri di ottimizzazione avanzati.

Cos’è il Rilevamento dell’Attività Vocale?

Comprendere la Tecnologia VAD

Il Rilevamento dell’Attività Vocale (VAD) è la tecnologia che determina quando qualcuno sta parlando rispetto a quando c’è silenzio o rumore di fondo. È la base per sapere quando ascoltare e quando un utente ha finito di parlare. Componenti chiave:
  • Rilevamento del Parlato: Identifica quando inizia l’attività vocale
  • Rilevamento del Silenzio: Riconosce quando il parlato è terminato
  • Filtraggio del Rumore: Distingue il parlato dai suoni di fondo

Cos’è il Turn Detection?

Il turn detection (chiamato anche “endpointing”) determina quando un parlante ha finito il proprio turno conversazionale ed è il momento per l’agente di rispondere. Questo è più sofisticato del semplice rilevamento del silenzio, poiché tiene conto delle pause naturali, del tempo di riflessione e del contesto conversazionale.

Smart Endpointing

Turn Detection Basato su AI

Lo Smart Endpointing utilizza un modello AI per rilevare la fine del turno in modo più accurato rispetto al solo VAD di base. Questa funzionalità avanzata aiuta a prevenire l’interruzione degli utenti durante pause naturali mantenendo comunque un flusso di conversazione reattivo. Vantaggi:
  • Riduce le interruzioni false durante pause naturali
  • Migliora la gestione del barge-in quando gli utenti interrompono
  • Gestisce meglio le frasi con più clausole
  • Tiene conto del contesto conversazionale
Compromesso di Latenza: Lo Smart Endpointing aggiunge alcune centinaia di millisecondi di latenza al turn detection. Questo migliora l’accuratezza ma rende l’agente leggermente meno reattivo. Disabilitalo per applicazioni critiche in termini di tempo dove la risposta immediata è più importante dell’accuratezza del turn detection.
Comportamento di fallback: Se il modello AI non è disponibile, il sistema ritorna automaticamente al rilevamento solo VAD per garantire un funzionamento affidabile.

Toggle Smart Endpointing

Abilita o disabilita il turn detection basato su AI. Quando disabilitato, il sistema utilizza il rilevamento solo VAD con tempi di risposta più rapidi.

Preset di Sensibilità

Opzioni di Configurazione Rapida

Scegli tra livelli di sensibilità preconfigurati che bilanciano reattività e accuratezza. Ogni preset regola automaticamente più parametri per prestazioni ottimali in scenari comuni.
Meno sensibile, meno interruzioniIdeale per:
  • Ambienti con rumore di fondo
  • Utenti che parlano con lunghe pause
  • Conversazioni formali che richiedono pazienza
Sensibilità bilanciataIdeale per:
  • Conversazioni generiche
  • Ambienti misti
  • La maggior parte dei casi d’uso aziendali
Più sensibile, risposte più rapideIdeale per:
  • Conversazioni a ritmo veloce
  • Ambienti audio puliti
  • Interazioni sensibili al tempo

Impostazioni Avanzate

Configurazione Personalizzata

Per un controllo preciso, passa alla modalità “Custom” per accedere a parametri avanzati. Queste impostazioni consentono un’ottimizzazione precisa per casi d’uso o ambienti specifici.

Gestione delle Interruzioni

Interruttore principale per la gestione delle interruzioniQuando abilitato, gli utenti possono interrompere l’agente mentre sta parlando. Quando disabilitato, l’agente completerà la sua risposta prima di accettare nuovo input.Casi d’uso:
  • Abilitato: Conversazioni naturali, supporto clienti, dialoghi interattivi
  • Disabilitato: Annunci importanti, disclaimer legali, script strutturati
Durata minima del parlato prima di consentire l’interruzione (0-5 secondi)Controlla quanto tempo un utente deve parlare prima che l’agente lo riconosca come tentativo di interruzione.
  • Valori più bassi (0,2-0,5s): Più reattivi, ma possono attivarsi su brevi interiezioni
  • Valori più alti (1,0-2,0s): Più stabili, richiedono parlato sostenuto per interrompere
Predefinito: 0,5 secondi
Conteggio minimo di parole prima di consentire l’interruzione (0-5 parole)Richiede che l’utente pronunci un certo numero di parole prima di riconoscere un’interruzione.
  • 0 parole: Interrompi al rilevamento di qualsiasi parlato
  • 1-2 parole: Bilancio tra reattività e stabilità
  • 3-5 parole: Richiedi input sostanziale prima di interrompere
Predefinito: 0 parole (interrompi su qualsiasi parlato)
Ritardo minimo di silenzio prima di considerare terminato il parlato (0-2 secondi)Quanto tempo attendere in silenzio prima di determinare che l’utente ha finito di parlare.
  • Valori più bassi (0,2-0,5s): Risposte più rapide, ma possono interrompere pause riflessive
  • Valori più alti (1,0-2,0s): Più pazienti, consentono pause naturali e tempo di riflessione
Predefinito: 0,5 secondi
Sensibilità del rilevamento vocale (0,0 - 1,0)Controlla quanto il sistema è sensibile nel rilevare il parlato rispetto al silenzio o al rumore.
  • Valori più bassi (0,1-0,3): Meno sensibile, richiede parlato più chiaro
  • Valori medi (0,4-0,6): Bilanciato per la maggior parte degli ambienti
  • Valori più alti (0,7-1,0): Più sensibile, rileva parlato più silenzioso
Predefinito: 0,5
Valori molto bassi potrebbero perdere utenti che parlano a bassa voce. Valori molto alti potrebbero attivarsi sul rumore di fondo.
Buffer audio prima del rilevamento del parlato (0-500ms)Quantità di audio da includere prima che venga rilevato il parlato. Questo aiuta a prevenire il taglio dell’inizio di parole o frasi.
  • Valori più bassi (0-50ms): Buffer minimo, rischio di taglio inizio parlato
  • Valori medi (100-200ms): Buon equilibrio per la maggior parte dei casi
  • Valori più alti (300-500ms): Massima preservazione dell’inizio del parlato
Predefinito: 100ms
Soglia di silenzio prima di terminare il turno (0-2000ms)Quanto tempo attendere in silenzio prima di considerare terminato il parlato dell’utente.
  • Valori più bassi (100-300ms): Risposte rapide, ma possono interrompere pause
  • Valori medi (400-800ms): Bilanciato per conversazione naturale
  • Valori più alti (1000-2000ms): Molto pazienti, consentono lunghe pause riflessive
Predefinito: 500ms
Valori più alti funzionano bene per utenti che pensano mentre parlano o hanno modelli di parlato con pause naturali.

Generazione Preventiva

Generazione Preventiva

Inizia a generare risposte prima che il turn detection sia completatoQuando abilitato, l’agente inizia a generare una risposta non appena è disponibile una trascrizione finale, anche prima di confermare la fine del turno. Questo può ridurre la latenza percepita ma potrebbe occasionalmente generare risposte che vengono annullate se l’utente continua a parlare.Migliori pratiche:
  • Funziona meglio con smart endpointing abilitato
  • Ideale per conversazioni sensibili al tempo
  • Potrebbe aumentare i costi API a causa di generazioni annullate
Predefinito: Disabilitato

Best Practice di Configurazione

Scegliere le Impostazioni Giuste

1

Inizia con i Preset

Inizia con il preset di sensibilità Media per la maggior parte dei casi d’uso. Testa nel tuo ambiente reale prima di personalizzare.
2

Testa con Utenti Reali

Diversi accenti, modelli di parlato e velocità possono richiedere impostazioni diverse. Testa con utenti rappresentativi.
3

Considera Smart Endpointing

Abilita smart endpointing solo se l’agente interrompe gli utenti a metà turno troppo spesso e altre impostazioni (ritardo endpointing, sensibilità) non possono risolverlo. Ricorda che aggiunge latenza.
4

Regola in Base all'Ambiente

Gli ambienti rumorosi beneficiano di sensibilità più bassa. Gli ambienti silenziosi possono usare sensibilità più alta per interazioni più reattive.
5

Considera il Caso d'Uso

  • Supporto clienti: Sensibilità media-alta
  • Raccolta informazioni: Sensibilità media con interruzioni abilitate
  • Annunci: Sensibilità bassa con interruzioni disabilitate
  • Chiamate di vendita: Sensibilità media-alta con interruzioni abilitate

Scenari Comuni

Guida alla Risoluzione dei Problemi

Sintomi: L’agente inizia a rispondere prima che gli utenti finiscano di parlareSoluzioni:
  • Aumenta ritardo endpointing o durata silenzio
  • Passa a un preset di sensibilità più bassa
  • Se usi impostazioni personalizzate, aumenta il requisito di parole minime
  • Considera l’abilitazione di smart endpointing come ultima risorsa (aggiunge latenza)
Sintomi: Ritardo evidente tra la fine dell’utente e la risposta dell’agenteSoluzioni:
  • Diminuisci ritardo endpointing o durata silenzio
  • Passa a un preset di sensibilità più alta
  • Disabilita smart endpointing se abilitato (riduce latenza)
  • Abilita generazione preventiva
Sintomi: Gli utenti non possono interrompere l’agente mentre parlaSoluzioni:
  • Assicurati che “Consenti Interruzioni” sia abilitato
  • Diminuisci durata parlato interruzione
  • Riduci requisito parole minime
  • Passa a preset di sensibilità più alta
Sintomi: L’agente risponde a suoni o rumori di fondoSoluzioni:
  • Passa a preset di sensibilità più bassa
  • Diminuisci soglia VAD
  • Aumenta requisito parole minime
  • Aumenta durata parlato interruzione
Sintomi: L’agente non rileva quando utenti silenziosi stanno parlandoSoluzioni:
  • Passa a preset di sensibilità più alta
  • Aumenta soglia VAD
  • Diminuisci durata parlato interruzione
  • Verifica qualità microfono/input audio

Funzionalità Correlate