Aperçu
Les contrôles de détection d’activité vocale (VAD) et de détection de tour permettent à vos agents IA de reconnaître quand les utilisateurs parlent, de détecter quand ils ont terminé leur tour et de gérer les interruptions naturellement. Ces paramètres sont cruciaux pour créer des conversations fluides et humaines qui semblent réactives sans couper les utilisateurs en pleine phrase. La VAD et la détection de tour fonctionnent ensemble pour déterminer quand écouter, quand répondre et comment gérer les interruptions - transformant la reconnaissance vocale de base en interactions conversationnelles naturelles.

Application universelle : Les paramètres de VAD et de détection de tour s’appliquent à tous les types de conversation, y compris les appels téléphoniques (SIP/PSTN) et les conversations basées sur le web.La configuration est disponible dans Paramètres de l’agent → Opérations → Détection d’activité vocale (VAD). Les paramètres incluent les préréglages de sensibilité, la segmentation intelligente, la gestion des interruptions et les paramètres de réglage avancés.
Qu’est-ce que la détection d’activité vocale ?
Comprendre la technologie VAD
La détection d’activité vocale (VAD) est la technologie qui détermine quand quelqu’un parle par opposition à quand il y a du silence ou du bruit de fond. C’est la base pour savoir quand écouter et quand un utilisateur a fini de parler. Composants clés :- Détection de parole : Identifie quand l’activité vocale commence
- Détection de silence : Reconnaît quand la parole s’est terminée
- Filtrage du bruit : Distingue la parole des sons de fond
Qu’est-ce que la détection de tour ?
La détection de tour (également appelée “segmentation”) détermine quand un locuteur a terminé son tour de conversation et qu’il est temps pour l’agent de répondre. C’est plus sophistiqué que la simple détection de silence, car elle tient compte des pauses naturelles, du temps de réflexion et du contexte conversationnel.Smart Endpointing
Détection de tour basée sur l’IA
Smart Endpointing utilise un modèle IA pour détecter la fin de tour plus précisément que la VAD seule. Cette fonctionnalité avancée aide à éviter de couper les utilisateurs pendant les pauses naturelles tout en maintenant un flux de conversation réactif. Avantages :- Réduit les fausses coupures pendant les pauses naturelles
- Améliore la gestion des interruptions lorsque les utilisateurs interrompent
- Gère mieux les phrases à plusieurs clauses
- Tient compte du contexte conversationnel
Bouton Smart Endpointing
Activez ou désactivez la détection de tour basée sur l’IA. Lorsqu’il est désactivé, le système utilise la détection basée uniquement sur la VAD avec des temps de réponse plus rapides.
Préréglages de sensibilité
Options de configuration rapide
Choisissez parmi des niveaux de sensibilité préconfigurés qui équilibrent réactivité et précision. Chaque préréglage ajuste automatiquement plusieurs paramètres pour des performances optimales dans des scénarios courants.Sensibilité faible
Sensibilité faible
Moins sensible, moins d’interruptionsIdéal pour :
- Environnements avec bruit de fond
- Utilisateurs qui parlent avec de longues pauses
- Conversations formelles nécessitant de la patience
Sensibilité moyenne (recommandée)
Sensibilité moyenne (recommandée)
Sensibilité équilibréeIdéal pour :
- Conversations à usage général
- Environnements mixtes
- La plupart des cas d’usage commerciaux
Sensibilité élevée
Sensibilité élevée
Plus sensible, réponses plus rapidesIdéal pour :
- Conversations au rythme rapide
- Environnements audio propres
- Interactions sensibles au temps
Paramètres avancés
Configuration personnalisée
Pour un contrôle affiné, passez en mode “Personnalisé” pour accéder aux paramètres avancés. Ces paramètres permettent un réglage précis pour des cas d’usage ou environnements spécifiques.Gestion des interruptions
Autoriser les interruptions
Autoriser les interruptions
Interrupteur principal pour la gestion des interruptionsLorsqu’il est activé, les utilisateurs peuvent interrompre l’agent pendant qu’il parle. Lorsqu’il est désactivé, l’agent terminera sa réponse avant d’accepter une nouvelle saisie.Cas d’usage :
- Activé : Conversations naturelles, support client, dialogues interactifs
- Désactivé : Annonces importantes, avertissements légaux, scripts structurés
Durée de parole d'interruption
Durée de parole d'interruption
Durée de parole minimale avant d’autoriser l’interruption (0-5 secondes)Contrôle combien de temps un utilisateur doit parler avant que l’agent reconnaisse cela comme une tentative d’interruption.
- Valeurs plus basses (0,2-0,5s) : Plus réactif, mais peut se déclencher sur de brèves interjections
- Valeurs plus élevées (1,0-2,0s) : Plus stable, nécessite une parole soutenue pour interrompre
Mots minimum
Mots minimum
Nombre de mots minimum avant d’autoriser l’interruption (0-5 mots)Nécessite que l’utilisateur prononce un certain nombre de mots avant de reconnaître une interruption.
- 0 mots : Interrompre sur toute détection de parole
- 1-2 mots : Équilibre entre réactivité et stabilité
- 3-5 mots : Nécessite une saisie substantielle avant l’interruption
Délai de segmentation
Délai de segmentation
Délai de silence minimum avant de considérer la parole terminée (0-2 secondes)Combien de temps attendre en silence avant de déterminer que l’utilisateur a fini de parler.
- Valeurs plus basses (0,2-0,5s) : Réponses plus rapides, mais peut couper les pauses réfléchies
- Valeurs plus élevées (1,0-2,0s) : Plus patient, permet les pauses naturelles et le temps de réflexion
Seuil VAD
Seuil VAD
Sensibilité de la détection vocale (0,0 - 1,0)Contrôle la sensibilité du système lors de la détection de la parole par rapport au silence ou au bruit.
- Valeurs plus basses (0,1-0,3) : Moins sensible, nécessite une parole plus claire
- Valeurs moyennes (0,4-0,6) : Équilibré pour la plupart des environnements
- Valeurs plus élevées (0,7-1,0) : Plus sensible, détecte une parole plus silencieuse
Préfixe de remplissage
Préfixe de remplissage
Tampon audio avant la détection de parole (0-500ms)Quantité d’audio à inclure avant que la parole soit détectée. Cela aide à éviter de couper le début des mots ou des phrases.
- Valeurs plus basses (0-50ms) : Tampon minimal, risque de coupure du début de la parole
- Valeurs moyennes (100-200ms) : Bon équilibre pour la plupart des cas
- Valeurs plus élevées (300-500ms) : Préservation maximale du début de la parole
Durée de silence
Durée de silence
Seuil de silence avant de terminer le tour (0-2000ms)Combien de temps attendre en silence avant de considérer que la parole de l’utilisateur est terminée.
- Valeurs plus basses (100-300ms) : Réponses rapides, mais peut couper les pauses
- Valeurs moyennes (400-800ms) : Équilibré pour une conversation naturelle
- Valeurs plus élevées (1000-2000ms) : Très patient, permet de longues pauses de réflexion
Génération préemptive
Génération préemptive
Commencer à générer des réponses avant que la détection de tour soit terminéeLorsqu’il est activé, l’agent commence à générer une réponse dès qu’une transcription finale est disponible, même avant de confirmer la fin du tour. Cela peut réduire la latence perçue mais peut occasionnellement générer des réponses qui sont annulées si l’utilisateur continue de parler.Bonnes pratiques :
- Fonctionne mieux avec le Smart Endpointing activé
- Idéal pour les conversations sensibles au temps
- Peut augmenter les coûts d’API en raison des générations annulées
Bonnes pratiques de configuration
Choisir les bons paramètres
Commencez avec les préréglages
Commencez avec le préréglage de sensibilité moyenne pour la plupart des cas d’usage. Testez dans votre environnement réel avant de personnaliser.
Testez avec de vrais utilisateurs
Différents accents, modèles de parole et vitesses de parole peuvent nécessiter des paramètres différents. Testez avec des utilisateurs représentatifs.
Considérez le Smart Endpointing
N’activez le Smart Endpointing que si l’agent interrompt trop souvent les utilisateurs en plein tour et que d’autres paramètres (délai de segmentation, sensibilité) ne peuvent pas le corriger. Rappelez-vous qu’il ajoute de la latence.
Ajustez en fonction de l'environnement
Les environnements bruyants bénéficient d’une sensibilité plus faible. Les environnements calmes peuvent utiliser une sensibilité plus élevée pour des interactions plus réactives.
Scénarios courants
Guide de dépannage
L'agent coupe les utilisateurs en pleine phrase
L'agent coupe les utilisateurs en pleine phrase
Symptômes : L’agent commence à répondre avant que les utilisateurs aient fini de parlerSolutions :
- Augmenter le délai de segmentation ou la durée de silence
- Passer à un préréglage de sensibilité plus faible
- Si vous utilisez des paramètres personnalisés, augmenter l’exigence de mots minimum
- Considérer l’activation du Smart Endpointing en dernier recours (ajoute de la latence)
L'agent répond trop lentement
L'agent répond trop lentement
Symptômes : Délai perceptible entre la fin de l’utilisateur et la réponse de l’agentSolutions :
- Diminuer le délai de segmentation ou la durée de silence
- Passer à un préréglage de sensibilité plus élevée
- Désactiver le Smart Endpointing s’il est activé (réduit la latence)
- Activer la génération préemptive
L'agent ne reconnaît pas les interruptions
L'agent ne reconnaît pas les interruptions
Symptômes : Les utilisateurs ne peuvent pas interrompre l’agent lorsqu’il parleSolutions :
- S’assurer que “Autoriser les interruptions” est activé
- Diminuer la durée de parole d’interruption
- Réduire l’exigence de mots minimum
- Passer à un préréglage de sensibilité plus élevée
Faux déclenchements du bruit de fond
Faux déclenchements du bruit de fond
Symptômes : L’agent répond aux sons de fond ou au bruitSolutions :
- Passer à un préréglage de sensibilité plus faible
- Diminuer le seuil VAD
- Augmenter l’exigence de mots minimum
- Augmenter la durée de parole d’interruption
Parole manquée des utilisateurs parlant doucement
Parole manquée des utilisateurs parlant doucement
Symptômes : L’agent ne détecte pas quand les utilisateurs silencieux parlentSolutions :
- Passer à un préréglage de sensibilité plus élevée
- Augmenter le seuil VAD
- Diminuer la durée de parole d’interruption
- Vérifier la qualité du microphone/entrée audio
Fonctionnalités connexes
Paramètres vocaux
Configurez la vitesse de la voix, la hauteur et d’autres paramètres TTS
Son ambiant
Ajoutez de l’audio de fond pour des conversations plus naturelles
Prononciations personnalisées
Assurez une prononciation correcte des noms et termes techniques
Contrôles DTMF
Configurez l’interaction du clavier téléphonique pour la navigation IVR