Zum Hauptinhalt springen

Übersicht

Das KI-Modell (LLM) ist das Gehirn deines Sprachagenten. Es verarbeitet, was Kunden sagen, versteht ihre Absicht, überlegt die beste Antwort und entscheidet, wann Aktionen ausgeführt werden sollen. Die Wahl des richtigen Modells bedeutet, Leistung, Latenz, Kosten und Compliance-Anforderungen in Einklang zu bringen.
Die Modellauswahl erfolgt unter Modelle > Modell in deiner Agentenkonfiguration. Änderungen werden sofort wirksam – kein separater Veröffentlichungsschritt erforderlich.

Sprachmodelle verstehen

Sprachmodelle werden mit riesigen Mengen an Text trainiert, um menschliche Sprache zu verstehen und zu generieren. In Sprachagenten interpretiert das LLM Kundenanfragen, überlegt die beste Antwort basierend auf deinen Anweisungen und deiner Wissensdatenbank, entscheidet, wann Aktionen wie Weiterleitungen oder Buchungen verwendet werden, generiert natürliche Gesprächsantworten und behält den Kontext während des gesamten Gesprächs bei. Verschiedene Modelle zeichnen sich bei verschiedenen Aufgaben aus. Einige priorisieren Geschwindigkeit, andere Genauigkeit, und einige bieten das beste Gleichgewicht für konversationelle KI.

Empfohlene Modelle

Basierend auf der realen Leistung von Tausenden von Sprachagenten sind hier die bewährten Modelle für verschiedene Anwendungsfälle:

Am besten für die meisten Anwendungsfälle: GPT-4.1 Mini

Unsere Top-Empfehlung für produktive Sprachagenten.Warum es funktioniert:
  • Hervorragende Latenz (~700-800ms Antwortzeit)
  • 70%+ Erfolgsrate beim Funktionsaufruf (Weiterleitungen, Buchungen, Aktionen)
  • Starke Befolgung von Anweisungen
  • Erschwingliche Kosten
Verwendung für:
  • Kundensupport
  • Terminbuchung
  • Auftragsabwicklung
  • Die meisten Gesprächsszenarien
Verfügbar bei: OpenAI, Azure OpenAI (EU-gehostet)
Wenn du maximale Intelligenz und Schlussfolgerungsfähigkeit benötigst.Warum es funktioniert:
  • Erstklassige Schlussfolgerung und mehrstufige Logik
  • Bewältigt komplexe Fehlerbehebung
  • Überlegenes Kontextverständnis
Kompromisse:
  • Höhere Latenz als GPT-4.1 Mini
  • Höhere Kosten pro Gespräch
Verwendung für:
  • Technischer Support mit komplexer Diagnose
  • Mehrstufige Verkaufsgespräche
  • Aufgaben, die tiefes Nachdenken erfordern
Verfügbar bei: OpenAI, Azure OpenAI (EU-gehostet)
Anthropics schnellstes Modell mit starker Leistung.Warum es funktioniert:
  • Antwortzeiten unter einer Sekunde
  • Gutes Gleichgewicht zwischen Geschwindigkeit und Intelligenz
  • Constitutional AI für sicherere Antworten
  • Niedrigere Kosten als Sonnet
Verwendung für:
  • Hochvolumen-Callcenter
  • Geschwindigkeitskritische Anwendungen
  • Budgetbewusste Bereitstellungen
Verfügbar bei: Anthropic
Schnellste verfügbare Option, angetrieben durch Groqs benutzerdefinierte Hardware.Warum es funktioniert:
  • Antwortzeiten unter 500ms
  • Verarbeitet Hunderte von Token pro Sekunde
  • Open-Source-Modell
  • Sehr niedrige Kosten
Kompromisse:
  • Weniger intelligent als GPT-4.1 oder Claude
  • Gelegentliche Latenzspitzen unter Last
  • Besser für einfachere Gespräche
Verwendung für:
  • Einfache Qualifizierungsanrufe
  • IVR und Routing
  • Hochvolumen-Szenarien mit geringer Komplexität
Verfügbar bei: Groq
Bessere Schlussfolgerungsfähigkeit bei Beibehaltung des Geschwindigkeitsvorteils von Groq.Warum es funktioniert:
  • Qualitätssteigerung gegenüber dem 8B-Modell
  • Immer noch schnell auf Groq-Infrastruktur
  • Guter Mittelweg
Verwendung für:
  • Wenn die Qualität von Llama 3.1 8B nicht ausreicht
  • Geschwindigkeit erforderlich, aber mehr Intelligenz
Verfügbar bei: Groq
Schnelle Entscheidungshilfe:
  • Starte mit GPT-4.1 Mini → zuverlässig, schnell, großartig für die meisten Anwendungsfälle
  • Mehr Schlussfolgerung benötigt? → GPT-4.1
  • Schneller/günstiger benötigt? → Claude Haiku 4.5
  • Schnellstes benötigt? → Groq Llama 3.1 8B (aber weniger intelligent)

Modellauswahl-Oberfläche

Anbieter-Katalog

Die Modellauswahl-Oberfläche gruppiert Anbieter mit hilfreichen Metadaten:

Anbieter-Symbole

Visuelles Branding für OpenAI, Anthropic, Groq, Azure und mehr

EU-gehostet-Badge

Zeigt Modelle an, die Daten in EU-Regionen verarbeiten

Modellanzahl

Zeigt, wie viele Modelle von jedem Anbieter verfügbar sind

Aktive Auswahl

Hebt dein aktuell ausgewähltes Modell hervor

Filtern und Suchen

Klicke auf einen Anbieter, um die Modelltabelle nur auf diesen Anbieter zu filtern. Verwende das Suchfeld, um schnell bestimmte Modelle nach Name oder Fähigkeit zu finden.

Details zu Modellanbietern

OpenAI

OpenAI-Modelle bieten das beste Gleichgewicht zwischen Zuverlässigkeit und Funktionsaufruf für Sprachagenten. GPT-4.1 MiniEmpfohlen
  • Reale Leistung: ~700-800ms Antwortzeit, 70%+ Erfolgsrate beim Funktionsaufruf
  • Am besten für: Produktive Sprachagenten - Support, Buchung, Vertrieb
  • Warum es funktioniert: Bewährte Zuverlässigkeit, hervorragende Tool-Nutzung, gute Latenz
GPT-4.1
  • Reale Leistung: Höhere Latenz als Mini, aber überlegene Schlussfolgerung
  • Am besten für: Komplexe mehrstufige Gespräche, technischer Support
  • Kompromiss: Höhere Kosten und Latenz für mehr Intelligenz
GPT-5 Serie (Mini, Nano)
  • Status: Modelle der nächsten Generation mit fortgeschrittenem Denkvermögen
  • Überlegungen: GPT-5 hat höhere Latenz (~1s+); GPT-5 Mini bietet besseres Gleichgewicht
  • Am besten für: Aufgaben, bei denen Intelligenz wichtiger als Geschwindigkeit ist
Legacy-Modelle (GPT-4o, GPT-4o Mini)
  • Status: Immer noch funktional, aber erwäge die GPT-4.1/5-Serie für neue Agenten

Azure OpenAI (EU-gehostet)

Dieselben OpenAI-Modelle, gehostet in der EU (Region Schweden-Zentral). Warum Azure OpenAI wählen:
  • EU-Hosting: Daten werden innerhalb der EU verarbeitet
  • Enterprise-Funktionen: Azure-Sicherheit, Compliance, SLAs
  • Dieselben Modelle: GPT-4.1, GPT-4.1 Mini, GPT-5 Mini/Nano

Anthropic

Claude-Modelle zeichnen sich durch Sicherheit, Befolgung von Anweisungen und komplexe Schlussfolgerungen aus. Claude Haiku 4.5Empfohlen
  • Reale Leistung: Antworten unter einer Sekunde, hervorragendes Geschwindigkeit-zu-Intelligenz-Verhältnis
  • Am besten für: Geschwindigkeitskritische Bereitstellungen, Hochvolumen-Anwendungsfälle
  • Warum es funktioniert: Schnell, erschwinglich, starke Constitutional AI-Sicherheit
Claude Sonnet 4.5
  • Reale Leistung: Hervorragend für komplexe Agenten-Workflows und Tool-Nutzung
  • Am besten für: Mehrstufige Schlussfolgerung, komplexe Verfahren, Codierungsaufgaben
  • Überlegungen: Kann Latenzspitzen unter starker Last haben; überwachen du Timeouts in der Produktion
  • Erweitertes Denken: Unterstützt längere Schlussfolgerungsketten für komplexe Probleme
Claude-Modelle sind konversationeller und reichhaltiger in ihren Antworten im Vergleich zu OpenAI-Modellen. Sie liefern natürlich vollständigere, nuanciertere Antworten. Dies macht sie hervorragend für ansprechende Kundeninteraktionen, aber sie entschuldigen sich möglicherweise gelegentlich zu viel. Teste mit deinem spezifischen Anwendungsfall, ob der Gesprächsstil deinen Anforderungen entspricht.

Groq (Ultra-niedrige Latenz)

Open-Source-Modelle auf benutzerdefinierter Hardware für maximale Geschwindigkeit. Llama 3.1 8B InstantAm schnellsten
  • Reale Leistung: Antwortzeiten unter 500ms, Hunderte von Token/Sekunde
  • Am besten für: Einfache Qualifizierung, IVR, Routing, Hochvolumen-Szenarien
  • Kompromiss: Weniger intelligent als GPT-4.1 oder Claude
  • Achte auf: Gelegentliche Latenzspitzen unter starker Last
Llama 3.3 70B Versatile
  • Reale Leistung: Bessere Schlussfolgerung als 8B bei Beibehaltung der Groq-Geschwindigkeit
  • Am besten für: Wenn du mehr Intelligenz als 8B benötigst, aber Groqs Geschwindigkeitsvorteil wünschst
GPT-OSS Serie (20B, 120B)
  • Reale Leistung: 20B-Modell ist sehr schnell auf Groq-Hardware, ähnlich wie Llama-Geschwindigkeiten
  • Status: Open-Weight-OpenAI-Modelle mit Tool-Nutzungsunterstützung
  • Am besten für: Schnelle Open-Source-Alternative mit Funktionsaufruf
Groq ist perfekt für: Entfernung von LLM-Engpässen, wenn unter 800ms kritisch ist und Aufgaben unkompliziert sind (Qualifizierung, Routing, Datenerfassung).

Modellparameter

Klicke auf Modellparameter, um auf erweiterte Konfigurationsoptionen zuzugreifen, die das Verhalten des Modells steuern.

Temperature

Steuert die Zufälligkeit in Antworten (Bereich: 0,0 bis 2,0)
  • 0,0 (Empfohlen): Deterministische, konsistente Antworten
    • Verwendung für: Die meisten Sprachagenten, Tool-Aufrufe, Aktionsausführung
    • Maximiert Zuverlässigkeit für Weiterleitungen, Buchungen und API-Aufrufe
    • Gewährleistet konsistentes Verhalten und vorhersehbare Antworten
  • 0,1 - 0,3: Leicht variiert, aber immer noch sehr konsistent
    • Verwendung für: Agenten, die leichte natürliche Variation benötigen
    • Immer noch zuverlässig für Tool-Aufrufe
  • 0,4 - 0,7: Kreativer und variabler
    • Verwendung für: Persönlichkeitsgetriebene Agenten, bei denen Kreativität wichtiger als Konsistenz ist
    • Zuverlässigkeit von Tool-Aufrufen nimmt ab
  • 0,8+: Hochkreativ, unvorhersehbar
    • Vermeide für produktive Sprachagenten
    • Tool-Aufrufe werden unzuverlässig
Standard-Empfehlung: Verwende 0,0, es sei denn, dein Agent benötigt mehr menschenähnliche Kreativität. Temperature über 0 reduziert die Zuverlässigkeit von Tool-Aufrufen (Weiterleitungen, Buchungen, Aktionen).

Auswahl des richtigen Modells

Entscheidungsrahmen

Verwende diesen Rahmen zur Auswahl deines Modells:

1. Beginne mit dem richtigen Standard

Für die meisten Anwendungsfälle beginne hier:
  • GPT-4.1 Mini → Bestes Gleichgewicht zwischen Geschwindigkeit, Zuverlässigkeit und Kosten
  • Claude Haiku 4.5 → Wenn du schnellere Antworten oder niedrigere Kosten benötigst
Nur upgraden, wenn du mehr Intelligenz benötigst:
  • GPT-4.1 → Komplexe mehrstufige Schlussfolgerung erforderlich
  • Claude Sonnet 4.5 → Maximale Gesprächsqualität
Gehe nur schneller/günstiger, wenn nötig:
  • Groq Llama 3.1 8B → Geschwindigkeit unter 500ms ist kritisch
Einfaches Routing / FAQ:
  • Groq Llama 3.1 8B (am schnellsten)
  • Llama 3.3 70B (intelligenter)
Standard-Kundensupport (Häufigste):
  • GPT-4.1 Mini ⭐ (empfohlen - bestes Gleichgewicht)
  • Claude Haiku 4.5 (schneller, konversationeller)
Komplexe Schlussfolgerung / Technischer Support:
  • GPT-4.1 (wenn Mini nicht ausreicht)
  • Claude Sonnet 4.5 (maximale Qualität)
Persönlichkeitskritisch / Markensensitiv:
  • Claude Sonnet 4.5 (reichste, konversationellste)
  • GPT-4.1 (wenn du Schlussfolgerung + Persönlichkeit benötigst)
GDPR-konformes EU-Hosting erforderlich?
  • Azure OpenAI ist der einzige Anbieter mit EU-Hosting
  • Alle GPT-4.1, GPT-4.1 Mini und GPT-5 Modelle verfügbar

Häufige Modellkombinationen

Viele Kunden verwenden verschiedene Modelle für verschiedene Agenten:
Standard-Support → GPT-4.1 Mini (bester Standard für die meisten Agenten)
Hochvolumen-Routing → Groq Llama 3.1 8B (geschwindigkeitskritisch, einfache Aufgaben)
Terminbuchung → GPT-4.1 Mini oder Claude Haiku 4.5 (zuverlässiger Tool-Aufruf)
Komplexe Fehlerbehebung → GPT-4.1 (wenn Sie mehr Schlussfolgerung benötigen)
Marken-/Persönlichkeitskritisch → Claude Sonnet 4.5 (reichste Gespräche)

Testen der Modellleistung

A/B-Tests von Modellen

Um Modelle wissenschaftlich zu vergleichen:
  1. Dupliziere deinen Agenten im Dashboard
  2. Ändere nur das Modell bei einer Version
  3. Halte alle anderen Einstellungen identisch (Anweisungen, Stimme, Aktionen)
  4. Führe identische Testszenarien bei beiden durch
  5. Vergleiche:
    • Antwortqualität und Genauigkeit
    • Latenz und Geschwindigkeit
    • Natürlichkeit der Konversation
    • Zuverlässigkeit der Aktionsauslösung

Bewertungskriterien

Bewerte jedes Modell nach:
KriteriumWorauf zu achten ist
GenauigkeitVersteht es Anfragen korrekt?
Befolgung von AnweisungenFolgt es deinen System-Prompt-Regeln?
LatenzWie schnell antwortet es?
KontextbeibehaltungErinnert es sich an frühere Gespräche?
Aktions-TimingLöst es Aktionen zu den richtigen Momenten aus?
FehlerbehandlungWie geht es mit unklaren Anfragen um?

Best Practices

Für die meisten Sprachagenten beginne mit:
  • Modell: GPT-4.1 Mini
  • Temperature: 0,0 (oder 0,7 für mehr Persönlichkeit)
Wechsle nur, wenn Tests zeigen, dass du mehr Intelligenz oder schnellere Geschwindigkeit benötigst.
Klein anfangen, nur bei Bedarf upgraden:
  • Die meisten Anwendungsfälle funktionieren hervorragend mit GPT-4.1 Mini
  • Nur auf GPT-4.1 oder Claude Sonnet 4.5 upgraden, wenn Mini deine Komplexität nicht bewältigen kann
  • Verwende Groq für einfaches Routing/FAQ, wo Geschwindigkeit wichtiger als Intelligenz ist
Passe Fähigkeit an Anforderung an – zahle nicht für Intelligenz, die du nicht benötigst.
Verwende Analytics zur Verfolgung:
  • Durchschnittliche Antwortzeit
  • Aktionserfolgsraten
  • Weiterleitungsraten (hohe Weiterleitungen können auf Schlussfolgerungsprobleme hinweisen)
  • Kundenzufriedenheitswerte
Wechsle Modelle, wenn sich Metriken verschlechtern.
Wenn du globale Kunden bedienst:
  • Verwende EU-gehostete Modelle für europäische Anrufer (GDPR)
  • Erwäge regionale Azure-Bereitstellungen für Enterprise-Compliance
  • Berücksichtige Latenz von der Modell-Hosting-Region zu Kunden
Wenn du Modelle in der Produktion änderst:
  • Notiere das Datum und den Grund in der Agentenbeschreibung
  • Überwache Metriken 24-48 Stunden danach
  • Halte die vorherige Modell-ID für Rollback dokumentiert
  • Teste gründlich, bevor du Hochvolumen-Agenten umstellst

Fehlerbehebung bei Modellproblemen

Agentenantworten sind zu ausführlich

Lösungen:
  • Füge den Anweisungen hinzu: “Halte jede Antwort unter 25 Sekunden”
  • Verwende Temperature 0,0 für fokussiertere, prägnantere Antworten
  • Erwäge ein schnelleres Modell, das Kürze fördert

Agent missversteht Anfragen

Lösungen:
  • Wechsle zu einem leistungsfähigeren Modell (GPT-4.1, Claude Sonnet 4.5)
  • Verbessere Anweisungen mit spezifischeren Beispielen
  • Füge Keyword-Boosting in Transcriber-Einstellungen hinzu
  • Überprüfe zuerst die Transkriptionsgenauigkeit (könnte STT-Problem sein, nicht LLM)

Agent folgt Anweisungen nicht

Lösungen:
  • Claude-Modelle normalerweise besser bei Befolgung von Anweisungen
  • Vereinfache und kläre Anweisungen
  • Verwende Aufzählungslisten statt Absätze
  • Füge explizite Beispiele für korrektes Verhalten hinzu
  • Verwende Temperature 0,0 für maximale Konsistenz

Hohe Latenz / Langsame Antworten

Lösungen:
  • Wechsle zu einem schnelleren Modell (Groq Llama 3.1 8B, Claude Haiku 4.5)
  • Prüfe, ob das Problem Modell- oder Netzwerklatenz ist (teste mit verschiedenen Anbietern)

Agent wiederholt dieselben Phrasen

Lösungen:
  • Füge Anweisung hinzu: “Variiere deine Formulierung; vermeide sich wiederholende Ausdrücke”
  • Erwäge ein anderes Modell (einige haben bessere Diversität)
  • Überprüfe, ob Anweisungen unbeabsichtigt Wiederholungen verursachen

Modell-Updates und Versionierung

Anbieter-Modell-Updates

Modellanbieter aktualisieren regelmäßig ihre Angebote:
  • Kleinere Updates verbessern oft die Leistung ohne Breaking Changes
  • Hauptversionsänderungen (z.B. GPT-4 → GPT-5) können Tests erfordern
  • itellicoAI benachrichtigt Kunden vor automatischen Versionsupdates

Kontrolle von Modellversionen

Einige Anbieter ermöglichen es dir, auf bestimmte Versionen festzulegen:
  • Latest: Verwende immer die neueste Version (Standard, empfohlen)
  • Pinned: Bleibe bei einer bestimmten Version (verwende dies, wenn du stark für dieses Modell optimiert hast)

Deprecation-Richtlinie

Wenn Anbieter Modelle außer Betrieb nehmen:
  1. itellicoAI benachrichtigt betroffene Kunden im Voraus
  2. Empfohlener Migrationspfad wird bereitgestellt
  3. Agenten werden automatisch zum Nachfolgemodell verschoben, wenn keine Aktion unternommen wird
  4. Migrationshilfe vom Support verfügbar

Nächste Schritte