itellicoAI Documentation

Aperçu

Les contrôles de détection d’activité vocale (VAD) et de détection de tour permettent à vos agents IA de reconnaître quand les utilisateurs parlent, de détecter quand ils ont terminé leur tour et de gérer les interruptions naturellement. Ces paramètres sont cruciaux pour créer des conversations fluides et humaines qui semblent réactives sans couper les utilisateurs en pleine phrase. La VAD et la détection de tour fonctionnent ensemble pour déterminer quand écouter, quand répondre et comment gérer les interruptions - transformant la reconnaissance vocale de base en interactions conversationnelles naturelles.

Configuration de la détection d'activité vocale (VAD) montrant la barre latérale de navigation avec la section Opérations développée et Détection d'activité vocale sélectionnée, bouton Smart Endpointing avec icône d'information et description, bouton Autoriser les interruptions activé, bouton Génération préemptive, options de sensibilité de détection vocale (Faible, Moyenne, Élevée, Personnalisée) et paramètres avancés incluant le curseur Durée de parole d'interruption, le curseur Mots minimum et le curseur Délai de segmentation

Application universelle : Les paramètres de VAD et de détection de tour s’appliquent à tous les types de conversation, y compris les appels téléphoniques (SIP/PSTN) et les conversations basées sur le web.La configuration est disponible dans Paramètres de l’agent → Opérations → Détection d’activité vocale (VAD). Les paramètres incluent les préréglages de sensibilité, la segmentation intelligente, la gestion des interruptions et les paramètres de réglage avancés.

Qu’est-ce que la détection d’activité vocale ?

Comprendre la technologie VAD

La détection d’activité vocale (VAD) est la technologie qui détermine quand quelqu’un parle par opposition à quand il y a du silence ou du bruit de fond. C’est la base pour savoir quand écouter et quand un utilisateur a fini de parler. Composants clés :

Détection de parole : Identifie quand l’activité vocale commence
Détection de silence : Reconnaît quand la parole s’est terminée
Filtrage du bruit : Distingue la parole des sons de fond

Qu’est-ce que la détection de tour ?

La détection de tour (également appelée “segmentation”) détermine quand un locuteur a terminé son tour de conversation et qu’il est temps pour l’agent de répondre. C’est plus sophistiqué que la simple détection de silence, car elle tient compte des pauses naturelles, du temps de réflexion et du contexte conversationnel.

Smart Endpointing

Détection de tour basée sur l’IA

Smart Endpointing utilise un modèle IA pour détecter la fin de tour plus précisément que la VAD seule. Cette fonctionnalité avancée aide à éviter de couper les utilisateurs pendant les pauses naturelles tout en maintenant un flux de conversation réactif. Avantages :

Réduit les fausses coupures pendant les pauses naturelles
Améliore la gestion des interruptions lorsque les utilisateurs interrompent
Gère mieux les phrases à plusieurs clauses
Tient compte du contexte conversationnel

Compromis de latence : Smart Endpointing ajoute quelques centaines de millisecondes de latence à la détection de tour. Cela améliore la précision mais rend l’agent légèrement moins réactif. Désactivez-le pour les applications critiques en temps où la réponse immédiate est plus importante que la précision de détection de tour.

Comportement de repli : Si le modèle IA n’est pas disponible, le système revient automatiquement à la détection basée uniquement sur la VAD pour garantir un fonctionnement fiable.

Bouton Smart Endpointing

Activez ou désactivez la détection de tour basée sur l’IA. Lorsqu’il est désactivé, le système utilise la détection basée uniquement sur la VAD avec des temps de réponse plus rapides.

Préréglages de sensibilité

Options de configuration rapide

Choisissez parmi des niveaux de sensibilité préconfigurés qui équilibrent réactivité et précision. Chaque préréglage ajuste automatiquement plusieurs paramètres pour des performances optimales dans des scénarios courants.

Sensibilité faible

Moins sensible, moins d’interruptionsIdéal pour :

Environnements avec bruit de fond
Utilisateurs qui parlent avec de longues pauses
Conversations formelles nécessitant de la patience

Sensibilité moyenne (recommandée)

Sensibilité équilibréeIdéal pour :

Conversations à usage général
Environnements mixtes
La plupart des cas d’usage commerciaux

Sensibilité élevée

Plus sensible, réponses plus rapidesIdéal pour :

Conversations au rythme rapide
Environnements audio propres
Interactions sensibles au temps

Paramètres avancés

Configuration personnalisée

Pour un contrôle affiné, passez en mode “Personnalisé” pour accéder aux paramètres avancés. Ces paramètres permettent un réglage précis pour des cas d’usage ou environnements spécifiques.

Gestion des interruptions

Autoriser les interruptions

Interrupteur principal pour la gestion des interruptionsLorsqu’il est activé, les utilisateurs peuvent interrompre l’agent pendant qu’il parle. Lorsqu’il est désactivé, l’agent terminera sa réponse avant d’accepter une nouvelle saisie.Cas d’usage :

Activé : Conversations naturelles, support client, dialogues interactifs
Désactivé : Annonces importantes, avertissements légaux, scripts structurés

Durée de parole d'interruption

Durée de parole minimale avant d’autoriser l’interruption (0-5 secondes)Contrôle combien de temps un utilisateur doit parler avant que l’agent reconnaisse cela comme une tentative d’interruption.

Valeurs plus basses (0,2-0,5s) : Plus réactif, mais peut se déclencher sur de brèves interjections
Valeurs plus élevées (1,0-2,0s) : Plus stable, nécessite une parole soutenue pour interrompre

Par défaut : 0,5 secondes

Mots minimum

Nombre de mots minimum avant d’autoriser l’interruption (0-5 mots)Nécessite que l’utilisateur prononce un certain nombre de mots avant de reconnaître une interruption.

0 mots : Interrompre sur toute détection de parole
1-2 mots : Équilibre entre réactivité et stabilité
3-5 mots : Nécessite une saisie substantielle avant l’interruption

Par défaut : 0 mots (interrompre sur toute parole)

Délai de segmentation

Délai de silence minimum avant de considérer la parole terminée (0-2 secondes)Combien de temps attendre en silence avant de déterminer que l’utilisateur a fini de parler.

Valeurs plus basses (0,2-0,5s) : Réponses plus rapides, mais peut couper les pauses réfléchies
Valeurs plus élevées (1,0-2,0s) : Plus patient, permet les pauses naturelles et le temps de réflexion

Par défaut : 0,5 secondes

Seuil VAD

Sensibilité de la détection vocale (0,0 - 1,0)Contrôle la sensibilité du système lors de la détection de la parole par rapport au silence ou au bruit.

Valeurs plus basses (0,1-0,3) : Moins sensible, nécessite une parole plus claire
Valeurs moyennes (0,4-0,6) : Équilibré pour la plupart des environnements
Valeurs plus élevées (0,7-1,0) : Plus sensible, détecte une parole plus silencieuse

Par défaut : 0,5

Des valeurs très basses peuvent manquer les utilisateurs qui parlent doucement. Des valeurs très élevées peuvent se déclencher sur le bruit de fond.

Préfixe de remplissage

Tampon audio avant la détection de parole (0-500ms)Quantité d’audio à inclure avant que la parole soit détectée. Cela aide à éviter de couper le début des mots ou des phrases.

Valeurs plus basses (0-50ms) : Tampon minimal, risque de coupure du début de la parole
Valeurs moyennes (100-200ms) : Bon équilibre pour la plupart des cas
Valeurs plus élevées (300-500ms) : Préservation maximale du début de la parole

Par défaut : 100ms

Durée de silence

Seuil de silence avant de terminer le tour (0-2000ms)Combien de temps attendre en silence avant de considérer que la parole de l’utilisateur est terminée.

Valeurs plus basses (100-300ms) : Réponses rapides, mais peut couper les pauses
Valeurs moyennes (400-800ms) : Équilibré pour une conversation naturelle
Valeurs plus élevées (1000-2000ms) : Très patient, permet de longues pauses de réflexion

Par défaut : 500ms

Des valeurs plus élevées fonctionnent bien pour les utilisateurs qui réfléchissent en parlant ou ont des modèles de parole avec des pauses naturelles.

Génération préemptive

Commencer à générer des réponses avant que la détection de tour soit terminéeLorsqu’il est activé, l’agent commence à générer une réponse dès qu’une transcription finale est disponible, même avant de confirmer la fin du tour. Cela peut réduire la latence perçue mais peut occasionnellement générer des réponses qui sont annulées si l’utilisateur continue de parler.Bonnes pratiques :

Fonctionne mieux avec le Smart Endpointing activé
Idéal pour les conversations sensibles au temps
Peut augmenter les coûts d’API en raison des générations annulées

Par défaut : Désactivé

Bonnes pratiques de configuration

Choisir les bons paramètres

Commencez avec les préréglages

Commencez avec le préréglage de sensibilité moyenne pour la plupart des cas d’usage. Testez dans votre environnement réel avant de personnaliser.

Testez avec de vrais utilisateurs

Différents accents, modèles de parole et vitesses de parole peuvent nécessiter des paramètres différents. Testez avec des utilisateurs représentatifs.

Considérez le Smart Endpointing

N’activez le Smart Endpointing que si l’agent interrompt trop souvent les utilisateurs en plein tour et que d’autres paramètres (délai de segmentation, sensibilité) ne peuvent pas le corriger. Rappelez-vous qu’il ajoute de la latence.

Ajustez en fonction de l'environnement

Les environnements bruyants bénéficient d’une sensibilité plus faible. Les environnements calmes peuvent utiliser une sensibilité plus élevée pour des interactions plus réactives.

Considérez le cas d'usage

Support client : Sensibilité moyenne à élevée
Collecte d’informations : Sensibilité moyenne avec interruptions activées
Annonces : Sensibilité faible avec interruptions désactivées
Appels de vente : Sensibilité moyenne à élevée avec interruptions activées

Scénarios courants

Guide de dépannage

L'agent coupe les utilisateurs en pleine phrase

Symptômes : L’agent commence à répondre avant que les utilisateurs aient fini de parlerSolutions :

Augmenter le délai de segmentation ou la durée de silence
Passer à un préréglage de sensibilité plus faible
Si vous utilisez des paramètres personnalisés, augmenter l’exigence de mots minimum
Considérer l’activation du Smart Endpointing en dernier recours (ajoute de la latence)

L'agent répond trop lentement

Symptômes : Délai perceptible entre la fin de l’utilisateur et la réponse de l’agentSolutions :

Diminuer le délai de segmentation ou la durée de silence
Passer à un préréglage de sensibilité plus élevée
Désactiver le Smart Endpointing s’il est activé (réduit la latence)
Activer la génération préemptive

L'agent ne reconnaît pas les interruptions

Symptômes : Les utilisateurs ne peuvent pas interrompre l’agent lorsqu’il parleSolutions :

S’assurer que “Autoriser les interruptions” est activé
Diminuer la durée de parole d’interruption
Réduire l’exigence de mots minimum
Passer à un préréglage de sensibilité plus élevée

Faux déclenchements du bruit de fond

Symptômes : L’agent répond aux sons de fond ou au bruitSolutions :

Passer à un préréglage de sensibilité plus faible
Diminuer le seuil VAD
Augmenter l’exigence de mots minimum
Augmenter la durée de parole d’interruption

Parole manquée des utilisateurs parlant doucement

Symptômes : L’agent ne détecte pas quand les utilisateurs silencieux parlentSolutions :

Passer à un préréglage de sensibilité plus élevée
Augmenter le seuil VAD
Diminuer la durée de parole d’interruption
Vérifier la qualité du microphone/entrée audio

Fonctionnalités connexes

Paramètres vocaux

Configurez la vitesse de la voix, la hauteur et d’autres paramètres TTS

Son ambiant

Ajoutez de l’audio de fond pour des conversations plus naturelles

Prononciations personnalisées

Assurez une prononciation correcte des noms et termes techniques

Contrôles DTMF

Configurez l’interaction du clavier téléphonique pour la navigation IVR

Premiers pas

Créer

Tester

Lancer

Optimiser

Comptes et sous-comptes

Réseau de partenaires

Mentions légales

Détection d'activité vocale et détection de tour

Aperçu

Qu’est-ce que la détection d’activité vocale ?

Comprendre la technologie VAD

Qu’est-ce que la détection de tour ?

Smart Endpointing

Détection de tour basée sur l’IA

Bouton Smart Endpointing

Préréglages de sensibilité

Options de configuration rapide

Paramètres avancés

Configuration personnalisée

Gestion des interruptions

Génération préemptive

Génération préemptive

Bonnes pratiques de configuration

Choisir les bons paramètres

Scénarios courants

Guide de dépannage

Fonctionnalités connexes

Paramètres vocaux

Son ambiant

Prononciations personnalisées

Contrôles DTMF

Premiers pas

Créer

Tester

Lancer

Optimiser

Comptes et sous-comptes

Réseau de partenaires

Mentions légales

​Aperçu

​Qu’est-ce que la détection d’activité vocale ?

​Comprendre la technologie VAD

​Qu’est-ce que la détection de tour ?

​Smart Endpointing

​Détection de tour basée sur l’IA

Bouton Smart Endpointing

​Préréglages de sensibilité

​Options de configuration rapide

​Paramètres avancés

​Configuration personnalisée

​Gestion des interruptions

​Génération préemptive

Génération préemptive

​Bonnes pratiques de configuration

​Choisir les bons paramètres

​Scénarios courants

​Guide de dépannage

​Fonctionnalités connexes

Paramètres vocaux

Son ambiant

Prononciations personnalisées

Contrôles DTMF

Aperçu

Qu’est-ce que la détection d’activité vocale ?

Comprendre la technologie VAD

Qu’est-ce que la détection de tour ?

Smart Endpointing

Détection de tour basée sur l’IA

Préréglages de sensibilité

Options de configuration rapide

Paramètres avancés

Configuration personnalisée

Gestion des interruptions

Génération préemptive

Bonnes pratiques de configuration

Choisir les bons paramètres

Scénarios courants

Guide de dépannage

Fonctionnalités connexes