Zum Hauptinhalt springen

Überblick

Sprachaktivitätserkennung (VAD) und Gesprächswechselerkennung ermöglichen es deinen KI-Agenten zu erkennen, wann Benutzer sprechen, wann sie ihren Gesprächsturn beendet haben und wie Unterbrechungen natürlich behandelt werden. Diese Einstellungen sind entscheidend für die Schaffung reibungsloser, menschenähnlicher Gespräche, die reaktionsschnell sind, ohne Benutzer mitten im Satz zu unterbrechen. VAD und Gesprächswechselerkennung arbeiten zusammen, um zu bestimmen, wann zugehört, wann geantwortet und wie mit Unterbrechungen umgegangen werden soll - und verwandeln so grundlegende Spracherkennung in natürliche Gesprächsinteraktionen.
Universelle Anwendung: VAD- und Gesprächswechselerkennungseinstellungen gelten für alle Gesprächstypen, einschließlich Telefonanrufe (SIP/PSTN) und webbasierte Gespräche.Die Konfiguration ist verfügbar unter Agenteneinstellungen → Operationen → Sprachaktivitätserkennung (VAD). Die Einstellungen umfassen Empfindlichkeitsvoreinstellungen, intelligentes Endpointing, Unterbrechungsbehandlung und erweiterte Tuning-Parameter.

Was ist Sprachaktivitätserkennung?

VAD-Technologie verstehen

Sprachaktivitätserkennung (VAD) ist die Technologie, die bestimmt, wann jemand spricht im Gegensatz zu Stille oder Hintergrundgeräuschen. Sie ist die Grundlage dafür, zu wissen, wann zugehört werden soll und wann ein Benutzer zu Ende gesprochen hat. Hauptkomponenten:
  • Spracherkennung: Identifiziert, wann Sprachaktivität beginnt
  • Stilleerkennung: Erkennt, wann Sprache beendet wurde
  • Geräuschfilterung: Unterscheidet Sprache von Hintergrundgeräuschen

Was ist Gesprächswechselerkennung?

Gesprächswechselerkennung (auch “Endpointing” genannt) bestimmt, wann ein Sprecher seinen Gesprächsturn beendet hat und es Zeit für den Agenten ist zu antworten. Dies ist ausgefeilter als einfache Stilleerkennung, da es natürliche Pausen, Denkzeit und Gesprächskontext berücksichtigt.

Intelligentes Endpointing

KI-gestützte Gesprächswechselerkennung

Intelligentes Endpointing verwendet ein KI-Modell, um das Gesprächsende genauer als nur VAD allein zu erkennen. Diese erweiterte Funktion hilft, das Unterbrechen von Benutzern während natürlicher Pausen zu verhindern und gleichzeitig einen reaktionsschnellen Gesprächsfluss zu erhalten. Vorteile:
  • Reduziert falsche Unterbrechungen während natürlicher Pausen
  • Verbessert die Barge-In-Behandlung, wenn Benutzer unterbrechen
  • Handhabt Sätze mit mehreren Nebensätzen besser
  • Berücksichtigt den Gesprächskontext
Latenz-Kompromiss: Intelligentes Endpointing fügt der Gesprächswechselerkennung einige hundert Millisekunden Latenz hinzu. Dies verbessert die Genauigkeit, macht den Agenten aber etwas weniger reaktionsschnell. Deaktiviere es für zeitkritische Anwendungen, bei denen sofortige Reaktion wichtiger ist als die Genauigkeit der Gesprächswechselerkennung.
Fallback-Verhalten: Wenn das KI-Modell nicht verfügbar ist, fällt das System automatisch auf reine VAD-Erkennung zurück, um einen zuverlässigen Betrieb sicherzustellen.

Intelligentes Endpointing umschalten

KI-basierte Gesprächswechselerkennung aktivieren oder deaktivieren. Bei Deaktivierung verwendet das System reine VAD-Erkennung mit schnelleren Antwortzeiten.

Empfindlichkeitsvoreinstellungen

Schnelle Konfigurationsoptionen

Wähle aus vorkonfigurierten Empfindlichkeitsstufen, die Reaktionsschnelligkeit und Genauigkeit ausbalancieren. Jede Voreinstellung passt automatisch mehrere Parameter für optimale Leistung in gängigen Szenarien an.
Weniger empfindlich, weniger UnterbrechungenAm besten für:
  • Umgebungen mit Hintergrundgeräuschen
  • Benutzer, die mit langen Pausen sprechen
  • Formelle Gespräche, die Geduld erfordern
Ausgewogene EmpfindlichkeitAm besten für:
  • Allzweckgespräche
  • Gemischte Umgebungen
  • Die meisten Geschäftsanwendungen
Empfindlicher, schnellere AntwortenAm besten für:
  • Schnelle Gespräche
  • Saubere Audioumgebungen
  • Zeitkritische Interaktionen

Erweiterte Einstellungen

Benutzerdefinierte Konfiguration

Für eine feinabgestimmte Kontrolle wechsle in den “Benutzerdefiniert”-Modus, um auf erweiterte Parameter zuzugreifen. Diese Einstellungen ermöglichen eine präzise Abstimmung für spezifische Anwendungsfälle oder Umgebungen.

Unterbrechungsbehandlung

Hauptschalter für UnterbrechungsbehandlungWenn aktiviert, können Benutzer den Agenten unterbrechen, während er spricht. Wenn deaktiviert, wird der Agent seine Antwort beenden, bevor er neue Eingaben akzeptiert.Anwendungsfälle:
  • Aktiviert: Natürliche Gespräche, Kundensupport, interaktive Dialoge
  • Deaktiviert: Wichtige Ankündigungen, rechtliche Hinweise, strukturierte Skripte
Minimale Sprachdauer vor Zulassung einer Unterbrechung (0-5 Sekunden)Steuert, wie lange ein Benutzer sprechen muss, bevor der Agent es als Unterbrechungsversuch erkennt.
  • Niedrigere Werte (0,2-0,5s): Reaktionsschneller, kann aber bei kurzen Einwürfen auslösen
  • Höhere Werte (1,0-2,0s): Stabiler, erfordert anhaltende Sprache zum Unterbrechen
Standard: 0,5 Sekunden
Minimale Wortanzahl vor Zulassung einer Unterbrechung (0-5 Wörter)Erfordert, dass der Benutzer eine bestimmte Anzahl von Wörtern spricht, bevor eine Unterbrechung erkannt wird.
  • 0 Wörter: Bei jeder Spracherkennung unterbrechen
  • 1-2 Wörter: Balance zwischen Reaktionsschnelligkeit und Stabilität
  • 3-5 Wörter: Erhebliche Eingabe vor Unterbrechung erforderlich
Standard: 0 Wörter (bei jeder Sprache unterbrechen)
Minimale Stilleverzögerung, bevor Sprache als beendet gilt (0-2 Sekunden)Wie lange in Stille gewartet wird, bevor festgestellt wird, dass der Benutzer zu Ende gesprochen hat.
  • Niedrigere Werte (0,2-0,5s): Schnellere Antworten, kann aber nachdenkliche Pausen abschneiden
  • Höhere Werte (1,0-2,0s): Geduldiger, ermöglicht natürliche Pausen und Denkzeit
Standard: 0,5 Sekunden
Empfindlichkeit der Spracherkennung (0,0 - 1,0)Steuert, wie empfindlich das System bei der Erkennung von Sprache gegenüber Stille oder Geräuschen ist.
  • Niedrigere Werte (0,1-0,3): Weniger empfindlich, erfordert klarere Sprache
  • Mittlere Werte (0,4-0,6): Ausgewogen für die meisten Umgebungen
  • Höhere Werte (0,7-1,0): Empfindlicher, erkennt leisere Sprache
Standard: 0,5
Sehr niedrige Werte können leise sprechende Benutzer verpassen. Sehr hohe Werte können auf Hintergrundgeräusche reagieren.
Audiopuffer vor Spracherkennung (0-500ms)Menge an Audio, die vor erkannter Sprache eingefügt wird. Dies hilft, das Abschneiden des Anfangs von Wörtern oder Sätzen zu verhindern.
  • Niedrigere Werte (0-50ms): Minimale Pufferung, Risiko des Abschneidens von Sprachbeginn
  • Mittlere Werte (100-200ms): Gute Balance für die meisten Fälle
  • Höhere Werte (300-500ms): Maximale Erhaltung des Sprachbeginns
Standard: 100ms
Stilleschwellenwert vor Beendigung des Turns (0-2000ms)Wie lange in Stille gewartet wird, bevor die Sprache des Benutzers als beendet gilt.
  • Niedrigere Werte (100-300ms): Schnelle Antworten, kann aber Pausen abschneiden
  • Mittlere Werte (400-800ms): Ausgewogen für natürliche Gespräche
  • Höhere Werte (1000-2000ms): Sehr geduldig, ermöglicht lange Denkpausen
Standard: 500ms
Höhere Werte funktionieren gut für Benutzer, die beim Sprechen nachdenken oder Sprachmuster mit natürlichen Pausen haben.

Präventive Generierung

Präventive Generierung

Antwortgenerierung vor Abschluss der Gesprächswechselerkennung startenWenn aktiviert, beginnt der Agent mit der Generierung einer Antwort, sobald eine finale Transkription verfügbar ist, noch bevor das Gesprächsende bestätigt wird. Dies kann die wahrgenommene Latenz reduzieren, kann aber gelegentlich Antworten generieren, die abgebrochen werden, wenn der Benutzer weiterspricht.Best Practices:
  • Funktioniert am besten mit aktiviertem intelligenten Endpointing
  • Ideal für zeitkritische Gespräche
  • Kann API-Kosten durch abgebrochene Generierungen erhöhen
Standard: Deaktiviert

Best Practices für die Konfiguration

Die richtigen Einstellungen wählen

1

Mit Voreinstellungen beginnen

Beginne für die meisten Anwendungsfälle mit der mittleren Empfindlichkeitsvoreinstellung. Teste in deiner tatsächlichen Umgebung, bevor du anpasst.
2

Mit echten Benutzern testen

Verschiedene Akzente, Sprachmuster und Sprechgeschwindigkeiten erfordern möglicherweise unterschiedliche Einstellungen. Teste mit repräsentativen Benutzern.
3

Intelligentes Endpointing berücksichtigen

Aktiviere intelligentes Endpointing nur, wenn der Agent Benutzer zu oft mitten im Turn unterbricht und andere Einstellungen (Endpointing-Verzögerung, Empfindlichkeit) dies nicht beheben können. Denke daran, dass es Latenz hinzufügt.
4

An Umgebung anpassen

Laute Umgebungen profitieren von niedrigerer Empfindlichkeit. Ruhige Umgebungen können höhere Empfindlichkeit für reaktionsschnellere Interaktionen verwenden.
5

Anwendungsfall berücksichtigen

  • Kundensupport: Mittlere bis hohe Empfindlichkeit
  • Informationserfassung: Mittlere Empfindlichkeit mit aktivierten Unterbrechungen
  • Ankündigungen: Niedrige Empfindlichkeit mit deaktivierten Unterbrechungen
  • Verkaufsgespräche: Mittlere bis hohe Empfindlichkeit mit aktivierten Unterbrechungen

Häufige Szenarien

Fehlerbehebung

Symptome: Agent beginnt zu antworten, bevor Benutzer zu Ende gesprochen habenLösungen:
  • Endpointing-Verzögerung oder Stilledauer erhöhen
  • Zu niedrigerer Empfindlichkeitsvoreinstellung wechseln
  • Bei benutzerdefinierten Einstellungen die minimale Wortanforderung erhöhen
  • Erwäge, intelligentes Endpointing als letzten Ausweg zu aktivieren (fügt Latenz hinzu)
Symptome: Spürbare Verzögerung zwischen Benutzerbeendigung und AgentenantwortLösungen:
  • Endpointing-Verzögerung oder Stilledauer verringern
  • Zu höherer Empfindlichkeitsvoreinstellung wechseln
  • Intelligentes Endpointing deaktivieren, falls aktiviert (reduziert Latenz)
  • Präventive Generierung aktivieren
Symptome: Benutzer können den Agenten beim Sprechen nicht unterbrechenLösungen:
  • Sicherstellen, dass “Unterbrechungen zulassen” aktiviert ist
  • Sprachdauer für Unterbrechung verringern
  • Minimale Wortanforderung reduzieren
  • Zu höherer Empfindlichkeitsvoreinstellung wechseln
Symptome: Agent reagiert auf Hintergrundgeräusche oder LärmLösungen:
  • Zu niedrigerer Empfindlichkeitsvoreinstellung wechseln
  • VAD-Schwellenwert verringern
  • Minimale Wortanforderung erhöhen
  • Sprachdauer für Unterbrechung erhöhen
Symptome: Agent erkennt nicht, wenn leise Benutzer sprechenLösungen:
  • Zu höherer Empfindlichkeitsvoreinstellung wechseln
  • VAD-Schwellenwert erhöhen
  • Sprachdauer für Unterbrechung verringern
  • Mikrofon-/Audioeingabequalität überprüfen

Verwandte Funktionen