Überblick
Sprachaktivitätserkennung (VAD) und Gesprächswechselerkennung ermöglichen es deinen KI-Agenten zu erkennen, wann Benutzer sprechen, wann sie ihren Gesprächsturn beendet haben und wie Unterbrechungen natürlich behandelt werden. Diese Einstellungen sind entscheidend für die Schaffung reibungsloser, menschenähnlicher Gespräche, die reaktionsschnell sind, ohne Benutzer mitten im Satz zu unterbrechen. VAD und Gesprächswechselerkennung arbeiten zusammen, um zu bestimmen, wann zugehört, wann geantwortet und wie mit Unterbrechungen umgegangen werden soll - und verwandeln so grundlegende Spracherkennung in natürliche Gesprächsinteraktionen.Universelle Anwendung: VAD- und Gesprächswechselerkennungseinstellungen gelten für alle Gesprächstypen, einschließlich Telefonanrufe (SIP/PSTN) und webbasierte Gespräche.Die Konfiguration ist verfügbar unter Agenteneinstellungen → Operationen → Sprachaktivitätserkennung (VAD). Die Einstellungen umfassen Empfindlichkeitsvoreinstellungen, intelligentes Endpointing, Unterbrechungsbehandlung und erweiterte Tuning-Parameter.
Was ist Sprachaktivitätserkennung?
VAD-Technologie verstehen
Sprachaktivitätserkennung (VAD) ist die Technologie, die bestimmt, wann jemand spricht im Gegensatz zu Stille oder Hintergrundgeräuschen. Sie ist die Grundlage dafür, zu wissen, wann zugehört werden soll und wann ein Benutzer zu Ende gesprochen hat. Hauptkomponenten:- Spracherkennung: Identifiziert, wann Sprachaktivität beginnt
- Stilleerkennung: Erkennt, wann Sprache beendet wurde
- Geräuschfilterung: Unterscheidet Sprache von Hintergrundgeräuschen
Was ist Gesprächswechselerkennung?
Gesprächswechselerkennung (auch “Endpointing” genannt) bestimmt, wann ein Sprecher seinen Gesprächsturn beendet hat und es Zeit für den Agenten ist zu antworten. Dies ist ausgefeilter als einfache Stilleerkennung, da es natürliche Pausen, Denkzeit und Gesprächskontext berücksichtigt.Intelligentes Endpointing
KI-gestützte Gesprächswechselerkennung
Intelligentes Endpointing verwendet ein KI-Modell, um das Gesprächsende genauer als nur VAD allein zu erkennen. Diese erweiterte Funktion hilft, das Unterbrechen von Benutzern während natürlicher Pausen zu verhindern und gleichzeitig einen reaktionsschnellen Gesprächsfluss zu erhalten. Vorteile:- Reduziert falsche Unterbrechungen während natürlicher Pausen
- Verbessert die Barge-In-Behandlung, wenn Benutzer unterbrechen
- Handhabt Sätze mit mehreren Nebensätzen besser
- Berücksichtigt den Gesprächskontext
Intelligentes Endpointing umschalten
KI-basierte Gesprächswechselerkennung aktivieren oder deaktivieren. Bei Deaktivierung verwendet das System reine VAD-Erkennung mit schnelleren Antwortzeiten.
Empfindlichkeitsvoreinstellungen
Schnelle Konfigurationsoptionen
Wähle aus vorkonfigurierten Empfindlichkeitsstufen, die Reaktionsschnelligkeit und Genauigkeit ausbalancieren. Jede Voreinstellung passt automatisch mehrere Parameter für optimale Leistung in gängigen Szenarien an.Niedrige Empfindlichkeit
Niedrige Empfindlichkeit
Weniger empfindlich, weniger UnterbrechungenAm besten für:
- Umgebungen mit Hintergrundgeräuschen
- Benutzer, die mit langen Pausen sprechen
- Formelle Gespräche, die Geduld erfordern
Mittlere Empfindlichkeit (Empfohlen)
Mittlere Empfindlichkeit (Empfohlen)
Ausgewogene EmpfindlichkeitAm besten für:
- Allzweckgespräche
- Gemischte Umgebungen
- Die meisten Geschäftsanwendungen
Hohe Empfindlichkeit
Hohe Empfindlichkeit
Empfindlicher, schnellere AntwortenAm besten für:
- Schnelle Gespräche
- Saubere Audioumgebungen
- Zeitkritische Interaktionen
Erweiterte Einstellungen
Benutzerdefinierte Konfiguration
Für eine feinabgestimmte Kontrolle wechsle in den “Benutzerdefiniert”-Modus, um auf erweiterte Parameter zuzugreifen. Diese Einstellungen ermöglichen eine präzise Abstimmung für spezifische Anwendungsfälle oder Umgebungen.Unterbrechungsbehandlung
Unterbrechungen zulassen
Unterbrechungen zulassen
Hauptschalter für UnterbrechungsbehandlungWenn aktiviert, können Benutzer den Agenten unterbrechen, während er spricht. Wenn deaktiviert, wird der Agent seine Antwort beenden, bevor er neue Eingaben akzeptiert.Anwendungsfälle:
- Aktiviert: Natürliche Gespräche, Kundensupport, interaktive Dialoge
- Deaktiviert: Wichtige Ankündigungen, rechtliche Hinweise, strukturierte Skripte
Sprachdauer für Unterbrechung
Sprachdauer für Unterbrechung
Minimale Sprachdauer vor Zulassung einer Unterbrechung (0-5 Sekunden)Steuert, wie lange ein Benutzer sprechen muss, bevor der Agent es als Unterbrechungsversuch erkennt.
- Niedrigere Werte (0,2-0,5s): Reaktionsschneller, kann aber bei kurzen Einwürfen auslösen
- Höhere Werte (1,0-2,0s): Stabiler, erfordert anhaltende Sprache zum Unterbrechen
Minimale Wörter
Minimale Wörter
Minimale Wortanzahl vor Zulassung einer Unterbrechung (0-5 Wörter)Erfordert, dass der Benutzer eine bestimmte Anzahl von Wörtern spricht, bevor eine Unterbrechung erkannt wird.
- 0 Wörter: Bei jeder Spracherkennung unterbrechen
- 1-2 Wörter: Balance zwischen Reaktionsschnelligkeit und Stabilität
- 3-5 Wörter: Erhebliche Eingabe vor Unterbrechung erforderlich
Endpointing-Verzögerung
Endpointing-Verzögerung
Minimale Stilleverzögerung, bevor Sprache als beendet gilt (0-2 Sekunden)Wie lange in Stille gewartet wird, bevor festgestellt wird, dass der Benutzer zu Ende gesprochen hat.
- Niedrigere Werte (0,2-0,5s): Schnellere Antworten, kann aber nachdenkliche Pausen abschneiden
- Höhere Werte (1,0-2,0s): Geduldiger, ermöglicht natürliche Pausen und Denkzeit
VAD-Schwellenwert
VAD-Schwellenwert
Empfindlichkeit der Spracherkennung (0,0 - 1,0)Steuert, wie empfindlich das System bei der Erkennung von Sprache gegenüber Stille oder Geräuschen ist.
- Niedrigere Werte (0,1-0,3): Weniger empfindlich, erfordert klarere Sprache
- Mittlere Werte (0,4-0,6): Ausgewogen für die meisten Umgebungen
- Höhere Werte (0,7-1,0): Empfindlicher, erkennt leisere Sprache
Prefix-Padding
Prefix-Padding
Audiopuffer vor Spracherkennung (0-500ms)Menge an Audio, die vor erkannter Sprache eingefügt wird. Dies hilft, das Abschneiden des Anfangs von Wörtern oder Sätzen zu verhindern.
- Niedrigere Werte (0-50ms): Minimale Pufferung, Risiko des Abschneidens von Sprachbeginn
- Mittlere Werte (100-200ms): Gute Balance für die meisten Fälle
- Höhere Werte (300-500ms): Maximale Erhaltung des Sprachbeginns
Stilledauer
Stilledauer
Stilleschwellenwert vor Beendigung des Turns (0-2000ms)Wie lange in Stille gewartet wird, bevor die Sprache des Benutzers als beendet gilt.
- Niedrigere Werte (100-300ms): Schnelle Antworten, kann aber Pausen abschneiden
- Mittlere Werte (400-800ms): Ausgewogen für natürliche Gespräche
- Höhere Werte (1000-2000ms): Sehr geduldig, ermöglicht lange Denkpausen
Präventive Generierung
Präventive Generierung
Antwortgenerierung vor Abschluss der Gesprächswechselerkennung startenWenn aktiviert, beginnt der Agent mit der Generierung einer Antwort, sobald eine finale Transkription verfügbar ist, noch bevor das Gesprächsende bestätigt wird. Dies kann die wahrgenommene Latenz reduzieren, kann aber gelegentlich Antworten generieren, die abgebrochen werden, wenn der Benutzer weiterspricht.Best Practices:
- Funktioniert am besten mit aktiviertem intelligenten Endpointing
- Ideal für zeitkritische Gespräche
- Kann API-Kosten durch abgebrochene Generierungen erhöhen
Best Practices für die Konfiguration
Die richtigen Einstellungen wählen
Mit Voreinstellungen beginnen
Beginne für die meisten Anwendungsfälle mit der mittleren Empfindlichkeitsvoreinstellung. Teste in deiner tatsächlichen Umgebung, bevor du anpasst.
Mit echten Benutzern testen
Verschiedene Akzente, Sprachmuster und Sprechgeschwindigkeiten erfordern möglicherweise unterschiedliche Einstellungen. Teste mit repräsentativen Benutzern.
Intelligentes Endpointing berücksichtigen
Aktiviere intelligentes Endpointing nur, wenn der Agent Benutzer zu oft mitten im Turn unterbricht und andere Einstellungen (Endpointing-Verzögerung, Empfindlichkeit) dies nicht beheben können. Denke daran, dass es Latenz hinzufügt.
An Umgebung anpassen
Laute Umgebungen profitieren von niedrigerer Empfindlichkeit. Ruhige Umgebungen können höhere Empfindlichkeit für reaktionsschnellere Interaktionen verwenden.
Anwendungsfall berücksichtigen
- Kundensupport: Mittlere bis hohe Empfindlichkeit
- Informationserfassung: Mittlere Empfindlichkeit mit aktivierten Unterbrechungen
- Ankündigungen: Niedrige Empfindlichkeit mit deaktivierten Unterbrechungen
- Verkaufsgespräche: Mittlere bis hohe Empfindlichkeit mit aktivierten Unterbrechungen
Häufige Szenarien
Fehlerbehebung
Agent unterbricht Benutzer mitten im Satz
Agent unterbricht Benutzer mitten im Satz
Symptome: Agent beginnt zu antworten, bevor Benutzer zu Ende gesprochen habenLösungen:
- Endpointing-Verzögerung oder Stilledauer erhöhen
- Zu niedrigerer Empfindlichkeitsvoreinstellung wechseln
- Bei benutzerdefinierten Einstellungen die minimale Wortanforderung erhöhen
- Erwäge, intelligentes Endpointing als letzten Ausweg zu aktivieren (fügt Latenz hinzu)
Agent antwortet zu langsam
Agent antwortet zu langsam
Symptome: Spürbare Verzögerung zwischen Benutzerbeendigung und AgentenantwortLösungen:
- Endpointing-Verzögerung oder Stilledauer verringern
- Zu höherer Empfindlichkeitsvoreinstellung wechseln
- Intelligentes Endpointing deaktivieren, falls aktiviert (reduziert Latenz)
- Präventive Generierung aktivieren
Agent erkennt Unterbrechungen nicht
Agent erkennt Unterbrechungen nicht
Symptome: Benutzer können den Agenten beim Sprechen nicht unterbrechenLösungen:
- Sicherstellen, dass “Unterbrechungen zulassen” aktiviert ist
- Sprachdauer für Unterbrechung verringern
- Minimale Wortanforderung reduzieren
- Zu höherer Empfindlichkeitsvoreinstellung wechseln
Falsche Auslöser durch Hintergrundgeräusche
Falsche Auslöser durch Hintergrundgeräusche
Symptome: Agent reagiert auf Hintergrundgeräusche oder LärmLösungen:
- Zu niedrigerer Empfindlichkeitsvoreinstellung wechseln
- VAD-Schwellenwert verringern
- Minimale Wortanforderung erhöhen
- Sprachdauer für Unterbrechung erhöhen
Verpasste Sprache von leise sprechenden Benutzern
Verpasste Sprache von leise sprechenden Benutzern
Symptome: Agent erkennt nicht, wenn leise Benutzer sprechenLösungen:
- Zu höherer Empfindlichkeitsvoreinstellung wechseln
- VAD-Schwellenwert erhöhen
- Sprachdauer für Unterbrechung verringern
- Mikrofon-/Audioeingabequalität überprüfen
Verwandte Funktionen
Spracheinstellungen
Konfiguriere Sprachgeschwindigkeit, Tonhöhe und andere TTS-Parameter
Hintergrundklang
Füge Hintergrundaudio für natürlichere Gespräche hinzu
Benutzerdefinierte Aussprachen
Stelle die richtige Aussprache von Namen und Fachbegriffen sicher
DTMF-Steuerung
Konfiguriere die Telefontastaturinteraktion für IVR-Navigation