Passer au contenu principal

Aperçu

Les contrôles de détection d’activité vocale (VAD) et de détection de tour permettent à vos agents IA de reconnaître quand les utilisateurs parlent, de détecter quand ils ont terminé leur tour et de gérer les interruptions naturellement. Ces paramètres sont cruciaux pour créer des conversations fluides et humaines qui semblent réactives sans couper les utilisateurs en pleine phrase. La VAD et la détection de tour fonctionnent ensemble pour déterminer quand écouter, quand répondre et comment gérer les interruptions - transformant la reconnaissance vocale de base en interactions conversationnelles naturelles.
Configuration de la détection d'activité vocale (VAD) montrant la barre latérale de navigation avec la section Opérations développée et Détection d'activité vocale sélectionnée, bouton Smart Endpointing avec icône d'information et description, bouton Autoriser les interruptions activé, bouton Génération préemptive, options de sensibilité de détection vocale (Faible, Moyenne, Élevée, Personnalisée) et paramètres avancés incluant le curseur Durée de parole d'interruption, le curseur Mots minimum et le curseur Délai de segmentation
Configuration de la détection d'activité vocale (VAD) montrant la barre latérale de navigation avec la section Opérations développée et Détection d'activité vocale sélectionnée, bouton Smart Endpointing avec icône d'information et description, bouton Autoriser les interruptions activé, bouton Génération préemptive, options de sensibilité de détection vocale (Faible, Moyenne, Élevée, Personnalisée) et paramètres avancés incluant le curseur Durée de parole d'interruption, le curseur Mots minimum et le curseur Délai de segmentation
Application universelle : Les paramètres de VAD et de détection de tour s’appliquent à tous les types de conversation, y compris les appels téléphoniques (SIP/PSTN) et les conversations basées sur le web.La configuration est disponible dans Paramètres de l’agent → Opérations → Détection d’activité vocale (VAD). Les paramètres incluent les préréglages de sensibilité, la segmentation intelligente, la gestion des interruptions et les paramètres de réglage avancés.

Qu’est-ce que la détection d’activité vocale ?

Comprendre la technologie VAD

La détection d’activité vocale (VAD) est la technologie qui détermine quand quelqu’un parle par opposition à quand il y a du silence ou du bruit de fond. C’est la base pour savoir quand écouter et quand un utilisateur a fini de parler. Composants clés :
  • Détection de parole : Identifie quand l’activité vocale commence
  • Détection de silence : Reconnaît quand la parole s’est terminée
  • Filtrage du bruit : Distingue la parole des sons de fond

Qu’est-ce que la détection de tour ?

La détection de tour (également appelée “segmentation”) détermine quand un locuteur a terminé son tour de conversation et qu’il est temps pour l’agent de répondre. C’est plus sophistiqué que la simple détection de silence, car elle tient compte des pauses naturelles, du temps de réflexion et du contexte conversationnel.

Smart Endpointing

Détection de tour basée sur l’IA

Smart Endpointing utilise un modèle IA pour détecter la fin de tour plus précisément que la VAD seule. Cette fonctionnalité avancée aide à éviter de couper les utilisateurs pendant les pauses naturelles tout en maintenant un flux de conversation réactif. Avantages :
  • Réduit les fausses coupures pendant les pauses naturelles
  • Améliore la gestion des interruptions lorsque les utilisateurs interrompent
  • Gère mieux les phrases à plusieurs clauses
  • Tient compte du contexte conversationnel
Compromis de latence : Smart Endpointing ajoute quelques centaines de millisecondes de latence à la détection de tour. Cela améliore la précision mais rend l’agent légèrement moins réactif. Désactivez-le pour les applications critiques en temps où la réponse immédiate est plus importante que la précision de détection de tour.
Comportement de repli : Si le modèle IA n’est pas disponible, le système revient automatiquement à la détection basée uniquement sur la VAD pour garantir un fonctionnement fiable.

Bouton Smart Endpointing

Activez ou désactivez la détection de tour basée sur l’IA. Lorsqu’il est désactivé, le système utilise la détection basée uniquement sur la VAD avec des temps de réponse plus rapides.

Préréglages de sensibilité

Options de configuration rapide

Choisissez parmi des niveaux de sensibilité préconfigurés qui équilibrent réactivité et précision. Chaque préréglage ajuste automatiquement plusieurs paramètres pour des performances optimales dans des scénarios courants.
Moins sensible, moins d’interruptionsIdéal pour :
  • Environnements avec bruit de fond
  • Utilisateurs qui parlent avec de longues pauses
  • Conversations formelles nécessitant de la patience
Sensibilité équilibréeIdéal pour :
  • Conversations à usage général
  • Environnements mixtes
  • La plupart des cas d’usage commerciaux
Plus sensible, réponses plus rapidesIdéal pour :
  • Conversations au rythme rapide
  • Environnements audio propres
  • Interactions sensibles au temps

Paramètres avancés

Configuration personnalisée

Pour un contrôle affiné, passez en mode “Personnalisé” pour accéder aux paramètres avancés. Ces paramètres permettent un réglage précis pour des cas d’usage ou environnements spécifiques.

Gestion des interruptions

Interrupteur principal pour la gestion des interruptionsLorsqu’il est activé, les utilisateurs peuvent interrompre l’agent pendant qu’il parle. Lorsqu’il est désactivé, l’agent terminera sa réponse avant d’accepter une nouvelle saisie.Cas d’usage :
  • Activé : Conversations naturelles, support client, dialogues interactifs
  • Désactivé : Annonces importantes, avertissements légaux, scripts structurés
Durée de parole minimale avant d’autoriser l’interruption (0-5 secondes)Contrôle combien de temps un utilisateur doit parler avant que l’agent reconnaisse cela comme une tentative d’interruption.
  • Valeurs plus basses (0,2-0,5s) : Plus réactif, mais peut se déclencher sur de brèves interjections
  • Valeurs plus élevées (1,0-2,0s) : Plus stable, nécessite une parole soutenue pour interrompre
Par défaut : 0,5 secondes
Nombre de mots minimum avant d’autoriser l’interruption (0-5 mots)Nécessite que l’utilisateur prononce un certain nombre de mots avant de reconnaître une interruption.
  • 0 mots : Interrompre sur toute détection de parole
  • 1-2 mots : Équilibre entre réactivité et stabilité
  • 3-5 mots : Nécessite une saisie substantielle avant l’interruption
Par défaut : 0 mots (interrompre sur toute parole)
Délai de silence minimum avant de considérer la parole terminée (0-2 secondes)Combien de temps attendre en silence avant de déterminer que l’utilisateur a fini de parler.
  • Valeurs plus basses (0,2-0,5s) : Réponses plus rapides, mais peut couper les pauses réfléchies
  • Valeurs plus élevées (1,0-2,0s) : Plus patient, permet les pauses naturelles et le temps de réflexion
Par défaut : 0,5 secondes
Sensibilité de la détection vocale (0,0 - 1,0)Contrôle la sensibilité du système lors de la détection de la parole par rapport au silence ou au bruit.
  • Valeurs plus basses (0,1-0,3) : Moins sensible, nécessite une parole plus claire
  • Valeurs moyennes (0,4-0,6) : Équilibré pour la plupart des environnements
  • Valeurs plus élevées (0,7-1,0) : Plus sensible, détecte une parole plus silencieuse
Par défaut : 0,5
Des valeurs très basses peuvent manquer les utilisateurs qui parlent doucement. Des valeurs très élevées peuvent se déclencher sur le bruit de fond.
Tampon audio avant la détection de parole (0-500ms)Quantité d’audio à inclure avant que la parole soit détectée. Cela aide à éviter de couper le début des mots ou des phrases.
  • Valeurs plus basses (0-50ms) : Tampon minimal, risque de coupure du début de la parole
  • Valeurs moyennes (100-200ms) : Bon équilibre pour la plupart des cas
  • Valeurs plus élevées (300-500ms) : Préservation maximale du début de la parole
Par défaut : 100ms
Seuil de silence avant de terminer le tour (0-2000ms)Combien de temps attendre en silence avant de considérer que la parole de l’utilisateur est terminée.
  • Valeurs plus basses (100-300ms) : Réponses rapides, mais peut couper les pauses
  • Valeurs moyennes (400-800ms) : Équilibré pour une conversation naturelle
  • Valeurs plus élevées (1000-2000ms) : Très patient, permet de longues pauses de réflexion
Par défaut : 500ms
Des valeurs plus élevées fonctionnent bien pour les utilisateurs qui réfléchissent en parlant ou ont des modèles de parole avec des pauses naturelles.

Génération préemptive

Génération préemptive

Commencer à générer des réponses avant que la détection de tour soit terminéeLorsqu’il est activé, l’agent commence à générer une réponse dès qu’une transcription finale est disponible, même avant de confirmer la fin du tour. Cela peut réduire la latence perçue mais peut occasionnellement générer des réponses qui sont annulées si l’utilisateur continue de parler.Bonnes pratiques :
  • Fonctionne mieux avec le Smart Endpointing activé
  • Idéal pour les conversations sensibles au temps
  • Peut augmenter les coûts d’API en raison des générations annulées
Par défaut : Désactivé

Bonnes pratiques de configuration

Choisir les bons paramètres

1

Commencez avec les préréglages

Commencez avec le préréglage de sensibilité moyenne pour la plupart des cas d’usage. Testez dans votre environnement réel avant de personnaliser.
2

Testez avec de vrais utilisateurs

Différents accents, modèles de parole et vitesses de parole peuvent nécessiter des paramètres différents. Testez avec des utilisateurs représentatifs.
3

Considérez le Smart Endpointing

N’activez le Smart Endpointing que si l’agent interrompt trop souvent les utilisateurs en plein tour et que d’autres paramètres (délai de segmentation, sensibilité) ne peuvent pas le corriger. Rappelez-vous qu’il ajoute de la latence.
4

Ajustez en fonction de l'environnement

Les environnements bruyants bénéficient d’une sensibilité plus faible. Les environnements calmes peuvent utiliser une sensibilité plus élevée pour des interactions plus réactives.
5

Considérez le cas d'usage

  • Support client : Sensibilité moyenne à élevée
  • Collecte d’informations : Sensibilité moyenne avec interruptions activées
  • Annonces : Sensibilité faible avec interruptions désactivées
  • Appels de vente : Sensibilité moyenne à élevée avec interruptions activées

Scénarios courants

Guide de dépannage

Symptômes : L’agent commence à répondre avant que les utilisateurs aient fini de parlerSolutions :
  • Augmenter le délai de segmentation ou la durée de silence
  • Passer à un préréglage de sensibilité plus faible
  • Si vous utilisez des paramètres personnalisés, augmenter l’exigence de mots minimum
  • Considérer l’activation du Smart Endpointing en dernier recours (ajoute de la latence)
Symptômes : Délai perceptible entre la fin de l’utilisateur et la réponse de l’agentSolutions :
  • Diminuer le délai de segmentation ou la durée de silence
  • Passer à un préréglage de sensibilité plus élevée
  • Désactiver le Smart Endpointing s’il est activé (réduit la latence)
  • Activer la génération préemptive
Symptômes : Les utilisateurs ne peuvent pas interrompre l’agent lorsqu’il parleSolutions :
  • S’assurer que “Autoriser les interruptions” est activé
  • Diminuer la durée de parole d’interruption
  • Réduire l’exigence de mots minimum
  • Passer à un préréglage de sensibilité plus élevée
Symptômes : L’agent répond aux sons de fond ou au bruitSolutions :
  • Passer à un préréglage de sensibilité plus faible
  • Diminuer le seuil VAD
  • Augmenter l’exigence de mots minimum
  • Augmenter la durée de parole d’interruption
Symptômes : L’agent ne détecte pas quand les utilisateurs silencieux parlentSolutions :
  • Passer à un préréglage de sensibilité plus élevée
  • Augmenter le seuil VAD
  • Diminuer la durée de parole d’interruption
  • Vérifier la qualité du microphone/entrée audio

Fonctionnalités connexes