Zum Hauptinhalt springen

Wie Voicemail-Erkennung funktioniert

Answering Machine Detection (AMD) ermöglicht es deinen KI-Agenten, automatisch zu erkennen, wenn Outbound-Anrufe statt bei einer echten Person auf Voicemail landen. Wenn der Agent Voicemail erkennt, legt er auf und protokolliert das Ergebnis, sodass du zu späteren Zeiten erneut versuchen kannst, eine lebende Person zu erreichen. Diese kritische Funktion verhindert, dass Agenten Zeit damit verschwenden, mit Anrufbeantwortern zu sprechen, und optimiert die Kampagnen-Effizienz, indem Ressourcen auf echte Gespräche statt auf Voicemail-Systeme konzentriert werden.
Nur Telefonanrufe: Answering Machine Detection (AMD) gilt für phone calls via Session Initiation Protocol (SIP)/Public Switched Telephone Network (PSTN). Web-basierte Gespräche ohne Telefon-Teil unterstützen keine Voicemail-Erkennung.Du kannst die AMD-Konfiguration während der Kampagnenerstellung, in den Kampagneneinstellungen und bei Telefon-Testanrufen aufrufen. Text-based ist der Standardmodus. ML-based aktiviert den externen AMD-Participant für schnellere Erkennung (~1,5 s statt 5-15 s).

Was ist Answering Machine Detection?

Die Herausforderung

Beim Tätigen von Outbound-Anrufen gibt es zwei mögliche Szenarien: Szenario 1: Mensch antwortet
Telefon klingelt → Person antwortet → „Hallo?"
→ Agent soll Gespräch führen
→ Volle Agenten-Funktionalität benötigt
Szenario 2: Voicemail
Telefon klingelt → Voicemail antwortet → „Sie haben den Anschluss von Max Mustermann erreicht …"
→ Agent soll auflegen und später erneut versuchen
→ Keine Zeit mit vollem Gesprächsskript verschwenden
→ Kein peinliches Hineinsprechen in die Voicemail-Ansage
Das Problem: Woher weiß der Agent, welches Szenario eingetreten ist?

AMD-Lösung

AMD analysiert die Audio der ersten Sekunden nach dem Verbindungsaufbau, um zu entscheiden, ob Mensch oder Maschine geantwortet hat: Erkennungsprozess:
1. Anruf wird verbunden
2. AMD analysiert Audio (0,5–3 Sekunden je nach Methode)
3. Klassifikation: MENSCH oder MASCHINE
4. Agent führt entsprechendes Verhalten aus
Vorteile:
  • Effizienz: Keine Zeit des Agents mit Voicemail verschwenden
  • Bessere Zielauswahl: Wiederholungsversuche zu anderen Zeiten planen, um echte Personen zu erreichen
  • Höhere Connect-Raten: Anrufzeitpunkte anhand von Voicemail-Mustern optimieren
  • Bessere Analytik: „Voicemail erreicht“ von „keine Antwort“ im Reporting trennen

AMD-Methoden

Erkennungstypen

Text-Based AMD

Erkenne Voicemail über Keyword-Analyse mit deinem Transkribierer und LLM - der Standardmodus

ML-Based AMD (Optional)

Erkenne Voicemail-Muster mit einem Deep Neural Network - optionales Add-on für schnellere Erkennung

Text-Based AMD

Rolle: Standard-Erkennungsmodus. Nutzt den Transkribierer und das LLM deines Agents, um Voicemail-Keywords zu identifizieren. So funktioniert es:
1. Anruf wird verbunden
2. Voice-Pipeline des Agents (Transkribierer) empfängt Audio
3. Agent wartet, bis der erste Turn/die erste Äußerung abgeschlossen ist (Pause erkannt)
4. LLM analysiert Transkription auf Voicemail-typische Muster:
   - „Sie haben den Anschluss von … erreicht"
   - „Hinterlassen Sie eine Nachricht"
   - „Nicht erreichbar"
   - „Mailbox"
   - „Nach dem Signalton"
5. Voicemail erkannt → Agent legt auf
6. Person erkannt → Agent führt normales Gespräch fort
Eigenschaften:
Langsamer: Wartet, bis der komplette Turn/die komplette Äußerung beendet istMuss warten, bis die gesamte Voicemail-Begrüßung abgeschlossen ist (Pause erkannt), dann transkribieren und den vollständigen Text analysieren. Typische Erkennung nach 5-15+ Sekunden, abhängig von der Länge der Voicemail-Nachricht.Einschränkung: Lange Voicemail-Begrüßungen bedeuten längere Wartezeiten bis zur ErkennungIdeal für: Kampagnen, bei denen Genauigkeit wichtiger ist als sofortige Erkennung
Hohe Genauigkeit bei:
  • Standard-Voicemail-Begrüßungen mit üblichen Formulierungen
  • Klarer Audioqualität
  • Voicemail-Sprache passt zur Transkribierer-Sprache
  • B2B-Umgebungen mit professionellen Begrüßungen
Wird NICHT erkennen:
  • Voicemail-Begrüßungen in Sprachen, die der Transkribierer nicht unterstützt
  • Voicemail-Systeme ohne Begrüßung (nur Töne)
  • Nicht-verbale Voicemail-Indikatoren
Geringere Genauigkeit bei:
  • Benutzerdefinierten Begrüßungen ohne Standard-Keywords
  • Sehr kurzen Begrüßungen („Hallo, Nachricht hinterlassen” – sehr kurz)
  • Schlechter Audioqualität oder Hintergrundgeräuschen
  • Hintergrundgeräuschen, die die Transkription stören
Ideal für:
  • B2B-Kampagnen - Geschäftliche Voicemails nutzen meist Standardformeln
  • Kampagnen mit Fokus auf Genauigkeit - Reduziert False Positives durch Analyse des vollständigen Kontextes
  • Kostenbewusste Deployments - Niedrigere Rechenkosten
  • Englischsprachige Märkte - Keyword-Erkennung für Englisch optimiert
Beispielszenarien:
  • Vertriebs-Outreach an geschäftliche Telefonnummern
  • Termin-Erinnerungen an Büroleitungen
  • B2B-Lead-Qualifizierungs-Kampagnen
Kann Schwierigkeiten haben mit:
  • Persönlichen, kreativen Voicemail-Begrüßungen („Hey, hier ist Mike, ihr wisst Bescheid”)
  • Sehr kurzen Begrüßungen
  • Voicemail-Sprache passt nicht zur Transkribierer-Sprache
  • Begrüßungen, die gesprächig klingen („Hallo? Hallo? War nur Spaß, Nachricht hinterlassen”)
  • Hintergrundmusik oder Geräuschen in der Begrüßung
False Positives: Ein Mensch, der mit „Sie haben den Anschluss von … erreicht” beginnt, könnte falsch klassifiziert werdenFalse Negatives: Voicemail ohne Keywords könnte als Mensch klassifiziert werden

ML-basierte AMD (optionales Add-on)

Rolle: Optionale schnelle Erkennungsschicht, die du für mehr Geschwindigkeit aktivieren kannst. Läuft parallel zu textbasierter AMD. So funktioniert es:
1. Anruf wird verbunden
2. Deep Neural Network (DNN) analysiert Audio in Echtzeit:
   - Sprachmuster und Kadenz
   - Voicemail-Audiomuster
   - Akustische Eigenschaften
   - Timing und Rhythmus
   - Indikatoren für natürliche vs. aufgezeichnete Sprache
3. Modell trainiert auf Zehntausenden von Audioaufnahmen
4. Klassifikation: MENSCH oder MASCHINE
5. Sprachunabhängige Erkennung
Eigenschaften:
Schnell: ~1,5 SekundenErkennt menschliche Antworten innerhalb von 1,5 SekundenViel schneller als textbasierte AMD, die auf das Ende der vollständigen Äußerung warten muss
Sehr hohe Genauigkeit unter RealbedingungenWarum ML-basierte AMD aktivieren:
  • Sprachunabhängig: Funktioniert in allen Sprachen (textbasiert funktioniert nur, wenn die Transkribierer-Sprache passt)
  • Erkennt reine Beep-Voicemail: Erfasst Voicemail-Systeme ohne Begrüßung (textbasiert kann das nicht)
  • Beherrscht kreative Begrüßungen: Erkennt persönliche/nicht-standardisierte Begrüßungen ohne Keywords
  • Musterbasierte Erkennung: Verlässt sich nicht auf bestimmte Voicemail-Keywords
  • Schnelle Erkennung: ~1,5 s statt 5-15+ s bei reinem Textansatz
  • Besser für mehrsprachige Kampagnen: Keine Sprachkonfiguration nötig
Einschränkungen:
  • Extrem kurze Verbindungen (< 0,5 Sekunden Audio)
  • Stark beeinträchtigte Audioqualität
Ideal für:
  • Consumer-Kampagnen - Persönliche Voicemails mit kreativen Begrüßungen
  • Mehrsprachige Kampagnen - Nicht von englischen Keywords abhängig
  • Qualitätsorientierte Kampagnen - Wenn Genauigkeit wichtiger ist als Geschwindigkeit
  • Komplexe Märkte - Gemischte Geschäfts-/Privatnummern
Beispielszenarien:
  • Consumer-Vertriebsanrufe
  • Politische Kampagnen
  • Fundraising für Non-Profits
  • Healthcare-Outreach
  • Mehrsprachige Support-Kampagnen
Kommt gut zurecht mit:
  • Kreativen persönlichen Begrüßungen
  • Kurzen Begrüßungen
  • Nicht-englischen Voicemails
  • Begrüßungen ohne Standard-Keywords
  • Hintergrundmusik oder Soundeffekten
  • Natürlich klingenden Gesprächsbegriffen
Robust bei:
  • Verschiedenen Sprachen
  • Regionalen Akzenten
  • Unterschiedlichen Voicemail-Systemen
  • Benutzerdefinierten Begrüßungen

Wie AMD funktioniert

Text-Based AMD (Base Layer):
  • Standardmodus für Kampagnen und Telefon-Tests
  • Analysiert Transkriptionen auf Voicemail-Keywords
  • Wartet auf vollständige Äußerung (5-15+ Sekunden)
  • Vorsichtiger - legt selten bei echten Menschen auf
ML-Based AMD (Optional Add-on):
  • Kann optional für schnellere Erkennung aktiviert werden
  • Analysiert Audiomuster in ~1,5 Sekunden
  • Läuft parallel zu Text-based AMD
  • Schneller, kann aber gelegentlich bei echten Menschen auflegen
Konfigurationsoptionen: Nur Text-based (konservativ):
  • Nur textbasierte Erkennung aktiv
  • Langsamere Erkennung (5-15+ Sekunden)
  • Legt selten bei echten Menschen auf
  • Trade-off: Kann manche Voicemails verpassen und mit ihnen sprechen
  • Ideal für: Wenn du um jeden Preis vermeiden willst, bei echten Menschen aufzulegen
Text-based + ML-based (schnell & empfohlen):
  • ML erkennt in ~1,5 Sekunden
  • Text-based validiert parallel
  • Sehr hohe Genauigkeit
  • Trade-off: Legt gelegentlich bei echten Menschen auf
  • Ideal für: Kampagnen, bei denen Gespräche mit Voicemail zusätzliche Kosten verursachen
Welche Variante solltest du wählen?Text-based (für die meisten Use-Cases empfohlen): Reicht für die Mehrheit der Kampagnen. Legt selten bei echten Menschen auf und kommt mit Standard-Voicemail-Begrüßungen gut zurecht.Text-based + ML-based: Wenn du schnellere Erkennung (~1,5 s vs. 5-15 s) brauchst und es tolerieren kannst, gelegentlich bei einem echten Menschen aufzulegen - etwa bei hochvolumigen Kampagnen, in denen Voicemail-Gespräche spürbare Kosten verursachen.

AMD konfigurieren

AMD kann an zwei Stellen konfiguriert werden:

Testanrufe

AMD aktivieren, wenn du deinen Agenten per Telefon testest

Kampagnen-Einstellungen

AMD für Outbound-Kampagnen konfigurieren

Testanrufe

Konfiguriere AMD beim Testen deines Agents per Telefon:
1

Agent öffnen

Gehe zu deiner Agent-SeiteKlicke auf Agent testen
2

Telefonanruf auswählen

Wähle Telefonanruf als Testtyp
3

AMD konfigurieren

Finde die Einstellung Answering Machine Detection (AMD)Wähle zwischen:
  • Text-based (Standard) - Vermeidet es um jeden Preis, bei echten Menschen aufzulegen
  • ML-based - Schnelle Erkennung (~1,5 s), kann aber gelegentlich bei echten Menschen auflegen
4

Testanruf starten

Wähle deine From NumberGib die To Number ein (deine Telefonnummer zum Testen)Klicke auf Start Phone CallWenn der Agent Voicemail erkennt, legt er auf

Kampagnenerstellung und Einstellungen

Bei der Kampagnenerstellung wird standardmäßig der textbasierte AMD-Modus verwendet. Um AMD für eine Kampagne zu ändern, öffne die Kampagne nach dem Erstellen und nutze den Tab Einstellungen.
1

Kampagne erstellen

Gehe zum Bereich CampaignsKlicke auf Create Campaign und fülle die Pflichtfelder für Kampagnenname, Agent, Telefonnummer und Zeitplan aus.
2

Kampagneneinstellungen öffnen

Öffne die Kampagne und wähle den Tab Einstellungen.
3

AMD-Strategie auswählen

Wechsle bei Bedarf in den Profi und finde dann Answering Machine Detection.Wähle die Voicemail-Erkennungsstrategie für diese KampagneWähle eine Option:
  • Text-based - Vermeidet es um jeden Preis, bei echten Menschen aufzulegen (langsamer, 5-15 s)
  • ML-based - Schnelle Erkennung (~1,5 s), kann aber gelegentlich bei echten Menschen auflegen
4

Speichern

Die Kampagneneinstellungsseite speichert die ausgewählte Strategie automatisch.
AMD-Einstellungen für bestehende Kampagnen ändern:
  1. Navigiere zu den Kampagnen-Einstellungen
  2. Wechsle in den Profi, falls das AMD-Feld ausgeblendet ist
  3. Finde das Dropdown Answering Machine Detection (AMD)
  4. Wähle eine andere Strategie (Text-based oder ML-based)
  5. Speichere die Änderungen
Wenn du AMD-Einstellungen mitten in einer Kampagne änderst, kann das die Konsistenz der Analytik beeinträchtigen. Ziehe in Betracht, eine neue Kampagne zu erstellen, wenn du AMD-Konfigurationen per A/B-Test vergleichen willst.

AMD-Verhalten

Wenn AMD Voicemail erkennt, legt der Agent automatisch auf und protokolliert das Ergebnis. Die Plattform markiert den Anruf in der Kampagnen-Analytik als MACHINE, sodass du Wiederholungsversuche zu anderen Zeiten planen kannst, um die Chance zu erhöhen, eine echte Person zu erreichen.

AMD-Konfiguration testen

AMD-Testplan

1

ML-Based AMD testen

Setup:
  1. Agent mit aktiviertem ML-Based AMD konfigurieren
  2. Test-Telefonnummer mit Voicemail vorbereiten
Test:
  1. Testanruf an die Voicemail-Nummer starten
  2. Den Anruf zur Voicemail laufen lassen
  3. Verhalten des Agents überwachen
Validierung:
  • Agent legt innerhalb von ~1,5 Sekunden auf
  • Anruf in den Logs als MACHINE markiert
  • Kein Gesprächsversuch mit der Voicemail-Begrüßung
2

Text-Based AMD testen

Setup:
  1. Agent nur mit Text-Based AMD konfigurieren
  2. Dieselbe Voicemail-Testnummer nutzen
Test:
  1. Testanruf starten
  2. Den Anruf mit Standard-Begrüßung zur Voicemail laufen lassen
Validierung:
  • Agent wartet auf die vollständige Begrüßung (5-15+ Sekunden)
  • Agent legt nach Erkennung der Keywords auf
  • Anruf als MACHINE markiert
3

Live-Person-Erkennung testen

Setup:
  1. Mit beiden AMD-Methoden testen
  2. Anruf selbst entgegennehmen
Test:
  1. Testanruf starten
  2. Abheben und „Hello?“ sagen
  3. Prüfen, ob der Agent normal weiter spricht
Validierung:
  • Agent legt NICHT auf
  • Normales Gespräch läuft weiter
  • Anruf NICHT als MACHINE markiert
4

Edge Cases testen

Zu testende Szenarien:Silent answer:
  • Abheben, aber nicht sprechen
  • Prüfen, dass AMD nicht falsch klassifiziert
Quick greeting:
  • Mit sehr kurzem „Hi“ antworten
  • Prüfen, dass das Gespräch weiterläuft
Voicemail ohne Keywords:
  • Mit nicht-standardisierter Begrüßung testen
  • ML- vs. Text-based-Performance beobachten
Beep-only voicemail:
  • Voicemail-System ohne Begrüßung
  • Prüfen, dass ML-based erkennt, Text-based es eventuell verpasst

Fehlerbehebung

Symptome: Performance entspricht nicht den ErwartungenPrüfen:
  • Kampagnen-AMD-Einstellung prüfen
  • Erwartete vs. tatsächliche Erkennungsgeschwindigkeit vergleichen
  • False-Positive-/False-Negative-Raten in den Logs prüfen
Lösung:
  • Zwischen Text-based und ML-based wechseln
  • Beide Methoden mit deinen Anrufmustern testen
  • Basierend auf deiner Priorität wählen (Geschwindigkeit vs. konservativ)
Symptome: Der Agent legt häufig bei echten Menschen aufAnalyse:
  • Anrufaufzeichnungen der False Positives prüfen
  • Prüfen, ob ML-based AMD zu aggressiv ist
  • Häufige Muster identifizieren (Hintergrundgeräusche, bestimmte Begrüßungen)
Lösung:
  • Zu Text-Based AMD wechseln (konservativer)
  • Anrufqualität verbessern/Hintergrundgeräusche reduzieren
  • Von unterschiedlichen Telefonnummern testen
  • Bei anhaltenden Problemen Support kontaktieren
Symptome: Der Agent spricht häufig mit VoicemailAnalyse:
  • Prüfen, ob Voicemails nicht-standardisierte Begrüßungen haben
  • Prüfen, ob es Beep-only-Voicemail-Systeme gibt
  • Verifizieren, dass die Transkribierer-Sprache zur Voicemail-Sprache passt
Lösung:
  • Zu ML-Based AMD wechseln (besser für nicht-standardisierte Begrüßungen)
  • ML-based erkennt Beep-only-Systeme
  • Sicherstellen, dass der Agent dieselbe Sprache wie die Zielgruppe spricht

Nächste Schritte

Kampagnenverwaltung

Outbound-Kampagnen erstellen und verwalten

Kampagnenverwaltung

Kampagnen-Analytik und Status im Blick behalten