Übersicht
Das KI-Modell (LLM) ist das Gehirn deines Sprachagenten. Es verarbeitet, was Kunden sagen, versteht ihre Absicht, überlegt die beste Antwort und entscheidet, wann Aktionen ausgeführt werden sollen. Die Wahl des richtigen Modells bedeutet, Leistung, Latenz, Kosten und Compliance-Anforderungen in Einklang zu bringen.Die Modellauswahl erfolgt unter Modelle > Modell in deiner Agentenkonfiguration. Änderungen werden sofort wirksam – kein separater Veröffentlichungsschritt erforderlich.
Sprachmodelle verstehen
Sprachmodelle werden mit riesigen Mengen an Text trainiert, um menschliche Sprache zu verstehen und zu generieren. In Sprachagenten interpretiert das LLM Kundenanfragen, überlegt die beste Antwort basierend auf deinen Anweisungen und deiner Wissensdatenbank, entscheidet, wann Aktionen wie Weiterleitungen oder Buchungen verwendet werden, generiert natürliche Gesprächsantworten und behält den Kontext während des gesamten Gesprächs bei. Verschiedene Modelle zeichnen sich bei verschiedenen Aufgaben aus. Einige priorisieren Geschwindigkeit, andere Genauigkeit, und einige bieten das beste Gleichgewicht für konversationelle KI.Empfohlene Modelle
Basierend auf der realen Leistung von Tausenden von Sprachagenten sind hier die bewährten Modelle für verschiedene Anwendungsfälle:Am besten für die meisten Anwendungsfälle: GPT-4.1 Mini
Am besten für die meisten Anwendungsfälle: GPT-4.1 Mini
Unsere Top-Empfehlung für produktive Sprachagenten.Warum es funktioniert:
- Hervorragende Latenz (~700-800ms Antwortzeit)
- 70%+ Erfolgsrate beim Funktionsaufruf (Weiterleitungen, Buchungen, Aktionen)
- Starke Befolgung von Anweisungen
- Erschwingliche Kosten
- Kundensupport
- Terminbuchung
- Auftragsabwicklung
- Die meisten Gesprächsszenarien
Für komplexe Aufgaben: GPT-4.1
Für komplexe Aufgaben: GPT-4.1
Wenn du maximale Intelligenz und Schlussfolgerungsfähigkeit benötigst.Warum es funktioniert:
- Erstklassige Schlussfolgerung und mehrstufige Logik
- Bewältigt komplexe Fehlerbehebung
- Überlegenes Kontextverständnis
- Höhere Latenz als GPT-4.1 Mini
- Höhere Kosten pro Gespräch
- Technischer Support mit komplexer Diagnose
- Mehrstufige Verkaufsgespräche
- Aufgaben, die tiefes Nachdenken erfordern
Schnell & erschwinglich: Claude Haiku 4.5
Schnell & erschwinglich: Claude Haiku 4.5
Anthropics schnellstes Modell mit starker Leistung.Warum es funktioniert:
- Antwortzeiten unter einer Sekunde
- Gutes Gleichgewicht zwischen Geschwindigkeit und Intelligenz
- Constitutional AI für sicherere Antworten
- Niedrigere Kosten als Sonnet
- Hochvolumen-Callcenter
- Geschwindigkeitskritische Anwendungen
- Budgetbewusste Bereitstellungen
Ultra-schnell Open Source: Groq Llama 3.1 8B
Ultra-schnell Open Source: Groq Llama 3.1 8B
Schnellste verfügbare Option, angetrieben durch Groqs benutzerdefinierte Hardware.Warum es funktioniert:
- Antwortzeiten unter 500ms
- Verarbeitet Hunderte von Token pro Sekunde
- Open-Source-Modell
- Sehr niedrige Kosten
- Weniger intelligent als GPT-4.1 oder Claude
- Gelegentliche Latenzspitzen unter Last
- Besser für einfachere Gespräche
- Einfache Qualifizierungsanrufe
- IVR und Routing
- Hochvolumen-Szenarien mit geringer Komplexität
Mehr Intelligenz von Groq: Llama 3.3 70B
Mehr Intelligenz von Groq: Llama 3.3 70B
Bessere Schlussfolgerungsfähigkeit bei Beibehaltung des Geschwindigkeitsvorteils von Groq.Warum es funktioniert:
- Qualitätssteigerung gegenüber dem 8B-Modell
- Immer noch schnell auf Groq-Infrastruktur
- Guter Mittelweg
- Wenn die Qualität von Llama 3.1 8B nicht ausreicht
- Geschwindigkeit erforderlich, aber mehr Intelligenz
Modellauswahl-Oberfläche
Anbieter-Katalog
Die Modellauswahl-Oberfläche gruppiert Anbieter mit hilfreichen Metadaten:Anbieter-Symbole
Visuelles Branding für OpenAI, Anthropic, Groq, Azure und mehr
EU-gehostet-Badge
Zeigt Modelle an, die Daten in EU-Regionen verarbeiten
Modellanzahl
Zeigt, wie viele Modelle von jedem Anbieter verfügbar sind
Aktive Auswahl
Hebt dein aktuell ausgewähltes Modell hervor
Filtern und Suchen
Klicke auf einen Anbieter, um die Modelltabelle nur auf diesen Anbieter zu filtern. Verwende das Suchfeld, um schnell bestimmte Modelle nach Name oder Fähigkeit zu finden.Details zu Modellanbietern
OpenAI
OpenAI-Modelle bieten das beste Gleichgewicht zwischen Zuverlässigkeit und Funktionsaufruf für Sprachagenten. GPT-4.1 Mini ⭐ Empfohlen- Reale Leistung: ~700-800ms Antwortzeit, 70%+ Erfolgsrate beim Funktionsaufruf
- Am besten für: Produktive Sprachagenten - Support, Buchung, Vertrieb
- Warum es funktioniert: Bewährte Zuverlässigkeit, hervorragende Tool-Nutzung, gute Latenz
- Reale Leistung: Höhere Latenz als Mini, aber überlegene Schlussfolgerung
- Am besten für: Komplexe mehrstufige Gespräche, technischer Support
- Kompromiss: Höhere Kosten und Latenz für mehr Intelligenz
- Status: Modelle der nächsten Generation mit fortgeschrittenem Denkvermögen
- Überlegungen: GPT-5 hat höhere Latenz (~1s+); GPT-5 Mini bietet besseres Gleichgewicht
- Am besten für: Aufgaben, bei denen Intelligenz wichtiger als Geschwindigkeit ist
- Status: Immer noch funktional, aber erwäge die GPT-4.1/5-Serie für neue Agenten
Azure OpenAI (EU-gehostet)
Dieselben OpenAI-Modelle, gehostet in der EU (Region Schweden-Zentral). Warum Azure OpenAI wählen:- EU-Hosting: Daten werden innerhalb der EU verarbeitet
- Enterprise-Funktionen: Azure-Sicherheit, Compliance, SLAs
- Dieselben Modelle: GPT-4.1, GPT-4.1 Mini, GPT-5 Mini/Nano
Anthropic
Claude-Modelle zeichnen sich durch Sicherheit, Befolgung von Anweisungen und komplexe Schlussfolgerungen aus. Claude Haiku 4.5 ⭐ Empfohlen- Reale Leistung: Antworten unter einer Sekunde, hervorragendes Geschwindigkeit-zu-Intelligenz-Verhältnis
- Am besten für: Geschwindigkeitskritische Bereitstellungen, Hochvolumen-Anwendungsfälle
- Warum es funktioniert: Schnell, erschwinglich, starke Constitutional AI-Sicherheit
- Reale Leistung: Hervorragend für komplexe Agenten-Workflows und Tool-Nutzung
- Am besten für: Mehrstufige Schlussfolgerung, komplexe Verfahren, Codierungsaufgaben
- Überlegungen: Kann Latenzspitzen unter starker Last haben; überwachen du Timeouts in der Produktion
- Erweitertes Denken: Unterstützt längere Schlussfolgerungsketten für komplexe Probleme
Claude-Modelle sind konversationeller und reichhaltiger in ihren Antworten im Vergleich zu OpenAI-Modellen. Sie liefern natürlich vollständigere, nuanciertere Antworten. Dies macht sie hervorragend für ansprechende Kundeninteraktionen, aber sie entschuldigen sich möglicherweise gelegentlich zu viel. Teste mit deinem spezifischen Anwendungsfall, ob der Gesprächsstil deinen Anforderungen entspricht.
Groq (Ultra-niedrige Latenz)
Open-Source-Modelle auf benutzerdefinierter Hardware für maximale Geschwindigkeit. Llama 3.1 8B Instant ⭐ Am schnellsten- Reale Leistung: Antwortzeiten unter 500ms, Hunderte von Token/Sekunde
- Am besten für: Einfache Qualifizierung, IVR, Routing, Hochvolumen-Szenarien
- Kompromiss: Weniger intelligent als GPT-4.1 oder Claude
- Achte auf: Gelegentliche Latenzspitzen unter starker Last
- Reale Leistung: Bessere Schlussfolgerung als 8B bei Beibehaltung der Groq-Geschwindigkeit
- Am besten für: Wenn du mehr Intelligenz als 8B benötigst, aber Groqs Geschwindigkeitsvorteil wünschst
- Reale Leistung: 20B-Modell ist sehr schnell auf Groq-Hardware, ähnlich wie Llama-Geschwindigkeiten
- Status: Open-Weight-OpenAI-Modelle mit Tool-Nutzungsunterstützung
- Am besten für: Schnelle Open-Source-Alternative mit Funktionsaufruf
Modellparameter
Klicke auf Modellparameter, um auf erweiterte Konfigurationsoptionen zuzugreifen, die das Verhalten des Modells steuern.Temperature
Steuert die Zufälligkeit in Antworten (Bereich: 0,0 bis 2,0)-
0,0 (Empfohlen): Deterministische, konsistente Antworten
- Verwendung für: Die meisten Sprachagenten, Tool-Aufrufe, Aktionsausführung
- Maximiert Zuverlässigkeit für Weiterleitungen, Buchungen und API-Aufrufe
- Gewährleistet konsistentes Verhalten und vorhersehbare Antworten
-
0,1 - 0,3: Leicht variiert, aber immer noch sehr konsistent
- Verwendung für: Agenten, die leichte natürliche Variation benötigen
- Immer noch zuverlässig für Tool-Aufrufe
-
0,4 - 0,7: Kreativer und variabler
- Verwendung für: Persönlichkeitsgetriebene Agenten, bei denen Kreativität wichtiger als Konsistenz ist
- Zuverlässigkeit von Tool-Aufrufen nimmt ab
-
0,8+: Hochkreativ, unvorhersehbar
- Vermeide für produktive Sprachagenten
- Tool-Aufrufe werden unzuverlässig
Standard-Empfehlung: Verwende 0,0, es sei denn, dein Agent benötigt mehr menschenähnliche Kreativität. Temperature über 0 reduziert die Zuverlässigkeit von Tool-Aufrufen (Weiterleitungen, Buchungen, Aktionen).
Auswahl des richtigen Modells
Entscheidungsrahmen
Verwende diesen Rahmen zur Auswahl deines Modells:1. Beginne mit dem richtigen Standard
1. Beginne mit dem richtigen Standard
Für die meisten Anwendungsfälle beginne hier:
- GPT-4.1 Mini → Bestes Gleichgewicht zwischen Geschwindigkeit, Zuverlässigkeit und Kosten
- Claude Haiku 4.5 → Wenn du schnellere Antworten oder niedrigere Kosten benötigst
- GPT-4.1 → Komplexe mehrstufige Schlussfolgerung erforderlich
- Claude Sonnet 4.5 → Maximale Gesprächsqualität
- Groq Llama 3.1 8B → Geschwindigkeit unter 500ms ist kritisch
2. An deinen Anwendungsfall anpassen
2. An deinen Anwendungsfall anpassen
Einfaches Routing / FAQ:
- Groq Llama 3.1 8B (am schnellsten)
- Llama 3.3 70B (intelligenter)
- GPT-4.1 Mini ⭐ (empfohlen - bestes Gleichgewicht)
- Claude Haiku 4.5 (schneller, konversationeller)
- GPT-4.1 (wenn Mini nicht ausreicht)
- Claude Sonnet 4.5 (maximale Qualität)
- Claude Sonnet 4.5 (reichste, konversationellste)
- GPT-4.1 (wenn du Schlussfolgerung + Persönlichkeit benötigst)
3. EU-Hosting
3. EU-Hosting
GDPR-konformes EU-Hosting erforderlich?
- Azure OpenAI ist der einzige Anbieter mit EU-Hosting
- Alle GPT-4.1, GPT-4.1 Mini und GPT-5 Modelle verfügbar
Häufige Modellkombinationen
Viele Kunden verwenden verschiedene Modelle für verschiedene Agenten:Testen der Modellleistung
A/B-Tests von Modellen
Um Modelle wissenschaftlich zu vergleichen:- Dupliziere deinen Agenten im Dashboard
- Ändere nur das Modell bei einer Version
- Halte alle anderen Einstellungen identisch (Anweisungen, Stimme, Aktionen)
- Führe identische Testszenarien bei beiden durch
- Vergleiche:
- Antwortqualität und Genauigkeit
- Latenz und Geschwindigkeit
- Natürlichkeit der Konversation
- Zuverlässigkeit der Aktionsauslösung
Bewertungskriterien
Bewerte jedes Modell nach:| Kriterium | Worauf zu achten ist |
|---|---|
| Genauigkeit | Versteht es Anfragen korrekt? |
| Befolgung von Anweisungen | Folgt es deinen System-Prompt-Regeln? |
| Latenz | Wie schnell antwortet es? |
| Kontextbeibehaltung | Erinnert es sich an frühere Gespräche? |
| Aktions-Timing | Löst es Aktionen zu den richtigen Momenten aus? |
| Fehlerbehandlung | Wie geht es mit unklaren Anfragen um? |
Best Practices
Beginne mit GPT-4.1 Mini
Beginne mit GPT-4.1 Mini
Für die meisten Sprachagenten beginne mit:
- Modell: GPT-4.1 Mini
- Temperature: 0,0 (oder 0,7 für mehr Persönlichkeit)
Gib nicht zu viel für Intelligenz aus
Gib nicht zu viel für Intelligenz aus
Klein anfangen, nur bei Bedarf upgraden:
- Die meisten Anwendungsfälle funktionieren hervorragend mit GPT-4.1 Mini
- Nur auf GPT-4.1 oder Claude Sonnet 4.5 upgraden, wenn Mini deine Komplexität nicht bewältigen kann
- Verwende Groq für einfaches Routing/FAQ, wo Geschwindigkeit wichtiger als Intelligenz ist
Überwache die reale Leistung
Überwache die reale Leistung
Verwende Analytics zur Verfolgung:
- Durchschnittliche Antwortzeit
- Aktionserfolgsraten
- Weiterleitungsraten (hohe Weiterleitungen können auf Schlussfolgerungsprobleme hinweisen)
- Kundenzufriedenheitswerte
Berücksichtige regionale Bereitstellung
Berücksichtige regionale Bereitstellung
Wenn du globale Kunden bedienst:
- Verwende EU-gehostete Modelle für europäische Anrufer (GDPR)
- Erwäge regionale Azure-Bereitstellungen für Enterprise-Compliance
- Berücksichtige Latenz von der Modell-Hosting-Region zu Kunden
Dokumentiere Modelländerungen
Dokumentiere Modelländerungen
Wenn du Modelle in der Produktion änderst:
- Notiere das Datum und den Grund in der Agentenbeschreibung
- Überwache Metriken 24-48 Stunden danach
- Halte die vorherige Modell-ID für Rollback dokumentiert
- Teste gründlich, bevor du Hochvolumen-Agenten umstellst
Fehlerbehebung bei Modellproblemen
Agentenantworten sind zu ausführlich
Lösungen:- Füge den Anweisungen hinzu: “Halte jede Antwort unter 25 Sekunden”
- Verwende Temperature 0,0 für fokussiertere, prägnantere Antworten
- Erwäge ein schnelleres Modell, das Kürze fördert
Agent missversteht Anfragen
Lösungen:- Wechsle zu einem leistungsfähigeren Modell (GPT-4.1, Claude Sonnet 4.5)
- Verbessere Anweisungen mit spezifischeren Beispielen
- Füge Keyword-Boosting in Transcriber-Einstellungen hinzu
- Überprüfe zuerst die Transkriptionsgenauigkeit (könnte STT-Problem sein, nicht LLM)
Agent folgt Anweisungen nicht
Lösungen:- Claude-Modelle normalerweise besser bei Befolgung von Anweisungen
- Vereinfache und kläre Anweisungen
- Verwende Aufzählungslisten statt Absätze
- Füge explizite Beispiele für korrektes Verhalten hinzu
- Verwende Temperature 0,0 für maximale Konsistenz
Hohe Latenz / Langsame Antworten
Lösungen:- Wechsle zu einem schnelleren Modell (Groq Llama 3.1 8B, Claude Haiku 4.5)
- Prüfe, ob das Problem Modell- oder Netzwerklatenz ist (teste mit verschiedenen Anbietern)
Agent wiederholt dieselben Phrasen
Lösungen:- Füge Anweisung hinzu: “Variiere deine Formulierung; vermeide sich wiederholende Ausdrücke”
- Erwäge ein anderes Modell (einige haben bessere Diversität)
- Überprüfe, ob Anweisungen unbeabsichtigt Wiederholungen verursachen
Modell-Updates und Versionierung
Anbieter-Modell-Updates
Modellanbieter aktualisieren regelmäßig ihre Angebote:- Kleinere Updates verbessern oft die Leistung ohne Breaking Changes
- Hauptversionsänderungen (z.B. GPT-4 → GPT-5) können Tests erfordern
- itellicoAI benachrichtigt Kunden vor automatischen Versionsupdates
Kontrolle von Modellversionen
Einige Anbieter ermöglichen es dir, auf bestimmte Versionen festzulegen:- Latest: Verwende immer die neueste Version (Standard, empfohlen)
- Pinned: Bleibe bei einer bestimmten Version (verwende dies, wenn du stark für dieses Modell optimiert hast)
Deprecation-Richtlinie
Wenn Anbieter Modelle außer Betrieb nehmen:- itellicoAI benachrichtigt betroffene Kunden im Voraus
- Empfohlener Migrationspfad wird bereitgestellt
- Agenten werden automatisch zum Nachfolgemodell verschoben, wenn keine Aktion unternommen wird
- Migrationshilfe vom Support verfügbar
Nächste Schritte
Stimme auswählen
Konfiguriere, wie dein Agent mit der Stimmenauswahl klingt
Transcriber-Konfiguration
Wähle Transkriptionsmodelle zum Zuhören von Kunden
Stimmeneinstellungen
Feinabstimmung von Geschwindigkeit, Tonhöhe und Klangfarbe für deine Stimme
Teste deinen Agenten
Teste die Modellleistung mit Web-Anrufen