Zum Hauptinhalt springen
Zugriff: Öffne einen Agenten und gehe zu Anrufablauf, dann scrolle zu Gesprächsablauf.

Wie Sprecherwechsel-Erkennung funktioniert

VAD und Sprecherwechsel-Erkennung entscheiden, wann der Anrufer fertig gesprochen hat und wann der Agent antworten soll. Diese Steuerungen beeinflussen die wahrgenommene Reaktionsgeschwindigkeit, Unterbrechungen und ob der Agent natürliche Pausen abwartet.
Diese Einstellungen gelten für Sprachgespräche, einschließlich Telefonanrufen und Web-Anrufen. Der Einfach zeigt Presets für die Antwortzeit. Der Profi ergänzt Unterbrechungssteuerung, KI-Sprecherwechsel-Erkennung und erweiterte Timing-Slider.

Einfach

Der Einfach zeigt Presets für Antwortzeit:
Längere Pausen vor der Antwort. Nutze das für durchdachte Gespräche, das Einsammeln von Zahlen oder Flows, in denen Anrufer häufig mitten im Satz pausieren.
Ein Mittelweg für allgemeine Gespräche.
Schnellere Antworten. Nutze das für kurze Dialoge, aber teste sorgfältig auf unbeabsichtigte Unterbrechungen.

Steuerungen im Profi

Steuert, ob Anrufer den Agenten unterbrechen können, während er spricht.Schalte das für rechtliche Hinweise, Pflichtankündigungen oder skriptierte Abschnitte aus, bei denen der Anrufer die komplette Nachricht hören soll.
Wähle Patient, Balanced, Responsive oder Custom.Die Presets aktualisieren die zugrunde liegenden Timing-Werte gemeinsam. Wähle Custom, wenn du die Slider direkt feinjustieren willst.
Aktiviert KI-basierte Erkennung des Turn-Endes. Wenn deaktiviert, nutzt die Runtime nur VAD-Erkennung.Die KI-Sprecherwechsel-Erkennung kann das Abbrechen mitten im Satz reduzieren, fügt aber möglicherweise etwas Latenz hinzu.
Der Profi zeigt drei Slider:
  • Silence before responding: 0.10s-1.00s
  • Speech duration to trigger interrupt: 0.10s-3.00s
  • Minimum words to interrupt: 0-5
Diese Einstellungen sind die dashboard-gestützten Steuerungen, um Reaktionsfähigkeit und Unterbrechungsstabilität zu tunen.

KI-Sprecherwechsel-Erkennung

Die KI-Sprecherwechsel-Erkennung ist die Dashboard-Steuerung für smartes Endpointing. Statt nur auf einen reinen Stille-Schwellenwert zu setzen, nutzt sie ein KI-Modell, um zu erkennen, wann ein Anrufer seinen Turn beendet hat. Vorteile:
  • reduziert falsche Abbrüche bei natürlichen Pausen
  • verbessert den Umgang mit Sätzen mit mehreren Teilsätzen
  • hält Barge-in-Verhalten stabiler
  • fällt auf VAD-only-Verhalten zurück, wenn der KI-Turn-Detector nicht verfügbar ist
Aktiviere es, um zu testen, ob es für deinen Use-Case bessere Ergebnisse liefert.

Best Practices für die Konfiguration

1

Mit einem Preset starten

Nutze Balanced für allgemeinen Support oder Booking-Agenten. Nutze Patient, wenn Anrufer oft zum Nachdenken pausieren. Nutze Responsive nur nach Tests auf Unterbrechungen.
2

Mit realistischen Stimmen testen

Teste Anrufer mit unterschiedlichem Sprechtempo, mit Pausen, beim Vorlesen von Zahlen und beim Unterbrechen des Agenten.
3

Immer nur eine Einstellung auf einmal ändern

Wenn du Presets wechselst und Unterbrechungs-Slider gleichzeitig änderst, ist schwer zu erkennen, welche Änderung das Gespräch verbessert oder verschlechtert hat.
4

Auf Telefonanrufen validieren

Browser-Tests sind nützlich, aber Telefon-Audio zeigt Turn-Taking-Probleme deutlicher.

Fehlerbehebung

Wechsle zu Patient, erhöhe Silence before responding, erhöhe Minimum words to interrupt oder aktiviere KI-Sprecherwechsel-Erkennung.
Wechsle zu Responsive, reduziere Silence before responding oder deaktiviere KI-Sprecherwechsel-Erkennung, wenn die zusätzliche Geduld nicht nötig ist.
Stelle sicher, dass Allow Interruptions aktiviert ist, reduziere Speech duration to trigger interrupt und senke Minimum words to interrupt.
Nutze Patient oder Balanced, erhöhe Speech duration to trigger interrupt und verlange mindestens ein oder zwei Wörter vor dem Unterbrechen.

Verwandte Funktionen

Spracheinstellungen

Stimmen-Geschwindigkeit und provider-spezifische Voice-Steuerung konfigurieren

Inaktivitäts-Timeout-Einstellungen

Festlegen, was bei Stille passiert

Ansage vor dem Anruf

Pflichtnachrichten konfigurieren, die meist nicht unterbrochen werden sollten

DTMF-Steuerungen

Telefon-Tastenfeld-Interaktion konfigurieren