Latenz Diagnostizieren
Antwortlatenz ist die Zeit zwischen dem Ende des Sprechens eines Anrufers und dem Beginn der Antwort des Agenten. Die Symbolleiste des Agent-Editors zeigt die geschätzte Latenz für deine Konfiguration an.Latenz-Aufschlüsselung
Gesamtlatenz = Transkription + KI-Modell + Sprachsynthese + Netzwerk| Komponente | Typischer Bereich | Optimierungshinweise |
|---|---|---|
| Transkription | 200-700ms | Deepgram Nova-3 (~300ms) statt Azure Speech (~500-700ms) verwenden |
| KI-Modell | 300-2000ms | Schnellere Modelle (Groq, GPT-4.1 Nano) für geschwindigkeitskritische Agenten verwenden |
| Sprachsynthese | 100-500ms | Niedriglatenz-Anbieter verwenden (Cartesia ist am schnellsten) |
| Netzwerk | 50-200ms | Telefonanrufe haben mehr Netzwerk-Hops als Web-Anrufe |
Wann latenz ein problem ist
- Unter 1 Sekunde: Ausgezeichnet – fühlt sich wie ein natürliches Gespräch an
- 1–2 Sekunden: Akzeptabel für die meisten Anwendungsfälle
- 2–3 Sekunden: Spürbar – Optimierung oder Denkgeräusche in Betracht ziehen
- Über 3 Sekunden: Schlechte Erfahrung – sofort handeln
Schnelle lösungen bei hoher latenz
- Zu einem schnelleren Modell wechseln – Gehe zu Allgemein → Denken und probiere die Voreinstellungen „Ausgeglichen” oder „Schnell”
- Denkgeräusche aktivieren – Allgemein → Töne → Denkgeräusche (Profi) füllt die Verarbeitungszeit mit Tastaturgeräuschen
- Smart Filler aktivieren – Allgemein → Töne → Smart Filler (Profi) erzeugt kontextbezogene Füllwörter
- Schnelleren Sprachanbieter verwenden – Sieh dir Unterstützte Anbieter für Latenz-Benchmarks an
- Prompt vereinfachen – Kürzere Prompts werden schneller verarbeitet
- VAD-Sprecherwechselerkennung anpassen – VAD-Einstellungen können die wahrgenommene Antwortzeit erheblich beeinflussen
Sprecherwechsel-Probleme
Agent spricht über den anrufer hinweg
Symptome: Der Agent beginnt zu sprechen, während der Anrufer noch redet, oder antwortet zu schnell nach kurzen Pausen. Lösung:- VAD-Sprecherwechselerkennung-Einstellungen öffnen
- Zu einer Geduldigen Antwortzeit-Voreinstellung wechseln
- Im Profi Stille vor Antwort erhöhen (z. B. von 300ms auf 500ms)
- KI-Sprecherwechselerkennung aktivieren (Profi) für intelligentere Erkennung des Gesprächsendes
Agent wartet zu lange mit der antwort
Symptome: Unangenehme Pausen, nachdem der Anrufer aufgehört hat zu sprechen. Lösung:- Zu einer Responsiveren Timing-Voreinstellung wechseln
- Im Profi Stille vor Antwort reduzieren
- Prüfen, ob KI-Sprecherwechselerkennung Verzögerungen verursacht – versuche, sie auszuschalten
- Zu einem schnelleren KI-Modell wechseln
Anrufer kann den Agenten nicht unterbrechen
Symptome: Der Anrufer spricht, aber der Agent setzt seine Antwort fort, ohne anzuhalten. Lösung:- Im Profi Unterbrechungen zulassen aktivieren
- Sprechdauer zum Auslösen einer Unterbrechung reduzieren (wie lange der Anrufer sprechen muss, um zu unterbrechen)
- Schwellenwert Mindestanzahl Wörter zum Unterbrechen reduzieren
Audio-Qualitätsprobleme
Roboterhafte oder unnatürliche stimme
- Eine andere Stimme ausprobieren – manche Stimmen klingen besser für Gesprächsnutzung
- Stimmeinstellungen anpassen (Profi) – Stabilität, Ähnlichkeit und Stil-Parameter feinjustieren
- Die Einstellung „Antwortstil” (Temperatur) senken – höhere Werte können zu weniger konsistenten Sprachmustern führen
Echo oder rückkopplung
- Dies tritt typischerweise bei Web-Anrufen auf. Prüfe, ob der Browser des Anrufers Echo-Unterdrückung aktiviert hat
- Umgebungsgeräusche reduzieren, wenn Hintergrundaudio verwendet wird
- Mit Kopfhörern testen, um das Problem zu isolieren
Dumpfe oder undeutliche sprache
- Die Transkribierungs-auswahl prüfen – Deepgram Nova-3 hat die beste allgemeine Genauigkeit
- Aussprache für häufig falsch verstandene Begriffe hinzufügen
- Im Profi Schlüsselwörter hinzufügen, um die Erkennung bestimmter Begriffe zu verbessern
Qualitätsunterschiede zwischen telefon und web
Telefonanrufe durchlaufen zusätzliche Komprimierung und Netzwerk-Hops, was die Qualität beeinflussen kann:- Immer mit echten Telefonanrufen vor dem Launch testen – Web-Simulator-Ergebnisse können abweichen
- Telefonnetzwerke fügen 50–200ms Latenz hinzu, die Web-Anrufe nicht haben
- Codec-Komprimierung kann die Sprachqualität beeinflussen – manche Sprachanbieter damit besser umgehen
Stille-Behandlung
Agent antwortet nicht, wenn der anrufer schweigt
Inaktivitäts-Timeout konfigurieren:- Stille-Erinnerungen aktivieren, um den Anrufer nach einer Schweige-Periode aufzufordern
- Maximale Anrufdauer festlegen, um zu lange laufende Anrufe zu beenden
- Im Profi Erinnerungs-Timing konfigurieren (Verzögerung und maximale Anzahl)
Agent legt zu schnell auf
- Maximale Anrufdauer erhöhen (Standard kann für deinen Anwendungsfall zu kurz sein)
- Prüfen, ob KI darf auflegen Anrufe vorzeitig beendet
- Prompt überprüfen – Formulierungen entfernen, die dem Agenten sagen, Anrufe aggressiv zu beenden
Test-Methodik
- Mit Web-Anrufen beginnen – schnellster Iterationszyklus, keine Telefonnetzwerk-Variablen
- Zu Telefonanrufen übergehen – echte Netzwerkbedingungen, AMD-Verhalten und Sprachqualität testen
- Aus verschiedenen Umgebungen testen – ruhiges Büro, lauter Raum, Mobiltelefon, Festnetz
- Modelle vergleichen – dieselbe Konversation mit verschiedenen KI-Modellen ausprobieren, um das beste Geschwindigkeit-/Qualitätsverhältnis zu finden
- Konversations-Zeitachsen überprüfen – Tool-Ausführungszeiten und Wissensabruf-Latenz prüfen
Nächste Schritte
VAD-Sprecherwechselerkennung
Antwort-Timing und Unterbrechungen konfigurieren
KI-Modell wählen
Das richtige Modell für Geschwindigkeit vs. Qualität auswählen
Denkgeräusche
Verarbeitungspausen mit Audio füllen
Häufige Probleme
Schnelle Lösungen für häufige Probleme finden