Présentation
Le modèle IA (LLM) est le cerveau de ton agent vocal. Il traite ce que disent les clients, comprend leur intention, raisonne sur la meilleure réponse et décide quand entreprendre des actions. Choisir le bon modèle signifie équilibrer les exigences de performance, latence, coût et conformité.La sélection du modèle se fait sous Modèles > Modèle dans ton configuration d’agent. Les modifications s’appliquent immédiatement - aucune étape de publication séparée n’est requise.
Comprendre les modèles de langage
Les modèles de langage sont entraînés sur de vastes quantités de texte pour comprendre et générer le langage humain. Dans les agents vocaux, le LLM interprète les demandes des clients, raisonne sur la meilleure réponse basée sur tes instructions et ton base de connaissances, décide quand utiliser des actions comme les transferts ou réservations, génère des réponses conversationnelles naturelles et maintient le contexte tout au long de la conversation. Différents modèles excellent dans différentes tâches. Certains privilégient la vitesse, d’autres la précision, et certains offrent le meilleur équilibre pour l’IA conversationnelle.Modèles recommandés
Basé sur les performances réelles de milliers d’agents vocaux, voici les modèles éprouvés pour différents cas d’usage :Meilleur pour la plupart des cas d'usage : GPT-4.1 Mini
Meilleur pour la plupart des cas d'usage : GPT-4.1 Mini
Notre meilleure recommandation pour les agents vocaux en production.Pourquoi ça fonctionne :
- Excellente latence (~700-800ms temps de réponse)
- Taux de succès 70%+ dans l’appel de fonction (transferts, réservations, actions)
- Bon suivi des instructions
- Coût abordable
- Support client
- Réservation de rendez-vous
- Traitement de commande
- La plupart des scénarios conversationnels
Pour tâches complexes : GPT-4.1
Pour tâches complexes : GPT-4.1
Quand tu as besoin d’intelligence et de raisonnement maximum.Pourquoi ça fonctionne :
- Meilleur raisonnement de sa catégorie et logique multi-étapes
- Gère le dépannage complexe
- Compréhension de contexte supérieure
- Latence plus élevée que GPT-4.1 Mini
- Coût plus élevé par conversation
- Support technique avec diagnostics complexes
- Conversations de vente multi-étapes
- Tâches nécessitant un raisonnement approfondi
Rapide et abordable : Claude Haiku 4.5
Rapide et abordable : Claude Haiku 4.5
Le modèle le plus rapide d’Anthropic avec de bonnes performances.Pourquoi ça fonctionne :
- Temps de réponse sous la seconde
- Bon équilibre entre vitesse et intelligence
- IA constitutionnelle pour des réponses plus sûres
- Coût plus bas que Sonnet
- Centres d’appels à haut volume
- Applications critiques en vitesse
- Déploiements soucieux du budget
Ultra-rapide Open Source : Groq Llama 3.1 8B
Ultra-rapide Open Source : Groq Llama 3.1 8B
Option la plus rapide disponible, alimentée par le matériel personnalisé de Groq.Pourquoi ça fonctionne :
- Temps de réponse sous 500ms
- Gère des centaines de tokens par seconde
- Modèle open source
- Coût très bas
- Moins intelligent que GPT-4.1 ou Claude
- Pics de latence occasionnels sous charge
- Meilleur pour les conversations simples
- Appels de qualification simples
- IVR et routage
- Scénarios à haut volume et faible complexité
Plus d'intelligence de Groq : Llama 3.3 70B
Plus d'intelligence de Groq : Llama 3.3 70B
Meilleur raisonnement tout en conservant l’avantage de vitesse de Groq.Pourquoi ça fonctionne :
- Montée en qualité par rapport au modèle 8B
- Toujours rapide sur l’infrastructure Groq
- Bon compromis
- Quand la qualité de Llama 3.1 8B n’est pas suffisante
- Besoin de vitesse mais plus d’intelligence
Interface de sélection de modèle
Catalogue de fournisseurs
L’interface de sélection de modèle regroupe les fournisseurs avec des métadonnées utiles :Icônes de fournisseur
Branding visuel pour OpenAI, Anthropic, Groq, Azure et plus
Badge hébergé en UE
Indique les modèles qui traitent les données dans les régions UE
Nombre de modèles
Montre combien de modèles sont disponibles de chaque fournisseur
Sélection active
Met en évidence ton modèle actuellement sélectionné
Filtrage et recherche
Clique sur un fournisseur pour filtrer la table de modèles à ce fournisseur uniquement. Utilise la boîte de recherche pour trouver rapidement des modèles spécifiques par nom ou capacité.Détails des fournisseurs de modèles
OpenAI
Les modèles OpenAI offrent le meilleur équilibre entre fiabilité et appel de fonction pour les agents vocaux. GPT-4.1 Mini ⭐ Recommandé- Performance réelle : ~700-800ms temps de réponse, taux de succès d’appel de fonction 70%+
- Meilleur pour : Agents vocaux de production - support, réservation, ventes
- Pourquoi ça fonctionne : Fiabilité prouvée, excellente utilisation des outils, bonne latence
- Performance réelle : Latence plus élevée que Mini mais raisonnement supérieur
- Meilleur pour : Conversations complexes multi-étapes, support technique
- Compromis : Coût et latence plus élevés pour plus d’intelligence
- Statut : Modèles de nouvelle génération avec raisonnement avancé
- Considérations : GPT-5 a une latence plus élevée (~1s+) ; GPT-5 Mini offre un meilleur équilibre
- Meilleur pour : Tâches où l’intelligence compte plus que la vitesse
- Statut : Toujours fonctionnels mais considérez les séries GPT-4.1/5 pour les nouveaux agents
Azure OpenAI (hébergé en UE)
Mêmes modèles OpenAI hébergés en UE (région Suède centrale). Pourquoi choisir Azure OpenAI :- Hébergement UE : Données traitées dans l’UE
- Fonctionnalités d’entreprise : Sécurité Azure, conformité, SLA
- Mêmes modèles : GPT-4.1, GPT-4.1 Mini, GPT-5 Mini/Nano
Anthropic
Les modèles Claude excellent en matière de sécurité, suivi des instructions et raisonnement complexe. Claude Haiku 4.5 ⭐ Recommandé- Performance réelle : Réponses sous la seconde, excellent ratio vitesse-intelligence
- Meilleur pour : Déploiements critiques en vitesse, cas d’usage à haut volume
- Pourquoi ça fonctionne : Rapide, abordable, forte sécurité IA constitutionnelle
- Performance réelle : Excellent pour workflows d’agent complexes et utilisation d’outils
- Meilleur pour : Raisonnement multi-étapes, procédures complexes, tâches de codage
- Considérations : Peut avoir des pics de latence sous charge lourde ; surveiller les timeouts en production
- Pensée étendue : Supporte des chaînes de raisonnement plus longues pour problèmes complexes
Les modèles Claude sont plus conversationnels et riches dans leurs réponses comparés aux modèles OpenAI. Ils fournissent naturellement des réponses plus complètes et nuancées. Cela les rend excellents pour des interactions client engageantes, mais ils peuvent parfois s’excuser excessivement. Teste avec ton cas d’usage spécifique pour voir si le style conversationnel correspond à tes besoins.
Groq (latence ultra-faible)
Modèles open source sur matériel personnalisé pour vitesse maximale. Llama 3.1 8B Instant ⭐ Le plus rapide- Performance réelle : Temps de réponse sous 500ms, centaines de tokens/seconde
- Meilleur pour : Qualification simple, IVR, routage, scénarios à haut volume
- Compromis : Moins intelligent que GPT-4.1 ou Claude
- Surveiller : Pics de latence occasionnels sous charge lourde
- Performance réelle : Meilleur raisonnement que 8B tout en gardant la vitesse de Groq
- Meilleur pour : Quand tu as besoin de plus d’intelligence que 8B mais voulez l’avantage de vitesse de Groq
- Performance réelle : Le modèle 20B est super rapide sur le matériel Groq, similaire aux vitesses Llama
- Statut : Modèles OpenAI à poids ouverts avec support d’utilisation d’outils
- Meilleur pour : Alternative open source rapide avec appel de fonction
Paramètres du modèle
Clique sur Paramètres du modèle pour accéder aux options de configuration avancées qui contrôlent le comportement du modèle.Température
Contrôle l’aléatoire dans les réponses (plage : 0.0 à 2.0)-
0.0 (Recommandé) : Réponses déterministes et cohérentes
- Utiliser pour : La plupart des agents vocaux, appel d’outils, exécution d’actions
- Maximise la fiabilité pour les transferts, réservations et appels API
- Assure un comportement cohérent et des réponses prévisibles
-
0.1 - 0.3 : Légèrement varié mais toujours très cohérent
- Utiliser pour : Agents nécessitant une légère variation naturelle
- Toujours fiable pour l’appel d’outils
-
0.4 - 0.7 : Plus créatif et varié
- Utiliser pour : Agents axés sur la personnalité où la créativité compte plus que la cohérence
- La fiabilité de l’appel d’outils diminue
-
0.8+ : Hautement créatif, imprévisible
- Éviter pour les agents vocaux de production
- L’appel d’outils devient peu fiable
Recommandation par défaut : Utilise 0.0 sauf si ton agent a besoin de plus de créativité humaine. Une température supérieure à 0 réduit la fiabilité de l’appel d’outils (transferts, réservations, actions).
Choisir le bon modèle
Cadre de décision
Utilise ce cadre pour sélectionner ton modèle :1. Commencer avec le bon défaut
1. Commencer avec le bon défaut
Pour la plupart des cas d’usage, Commence ici :
- GPT-4.1 Mini → Meilleur équilibre vitesse, fiabilité et coût
- Claude Haiku 4.5 → Quand tu as besoin de réponses plus rapides ou coût plus bas
- GPT-4.1 → Raisonnement complexe multi-étapes requis
- Claude Sonnet 4.5 → Qualité conversationnelle maximale
- Groq Llama 3.1 8B → Vitesse sous 500ms critique
2. Correspondre à ton cas d'usage
2. Correspondre à ton cas d'usage
Routage simple / FAQ :
- Groq Llama 3.1 8B (plus rapide)
- Llama 3.3 70B (plus intelligent)
- GPT-4.1 Mini ⭐ (recommandé - meilleur équilibre)
- Claude Haiku 4.5 (plus rapide, plus conversationnel)
- GPT-4.1 (quand Mini n’est pas suffisant)
- Claude Sonnet 4.5 (qualité maximale)
- Claude Sonnet 4.5 (le plus riche, le plus conversationnel)
- GPT-4.1 (quand tu as besoin de raisonnement + personnalité)
3. Hébergement UE
3. Hébergement UE
Besoin d’hébergement UE conforme RGPD ?
- Azure OpenAI est le seul fournisseur avec hébergement UE
- Tous les modèles GPT-4.1, GPT-4.1 Mini et GPT-5 disponibles
Combinaisons de modèles courantes
De nombreux clients utilisent différents modèles pour différents agents :Tester les performances du modèle
Tests A/B de modèles
Pour comparer les modèles scientifiquement :- Dupliquez ton agent dans le tableau de bord
- Change uniquement le modèle sur une version
- Garde tous les autres paramètres identiques (instructions, voix, actions)
- Exécute des scénarios de test identiques sur les deux
- Compare :
- Qualité et précision des réponses
- Latence et vitesse
- Naturel de la conversation
- Fiabilité du déclenchement d’actions
Critères d’évaluation
Évaluez chaque modèle sur :| Critère | Ce qu’il faut rechercher |
|---|---|
| Précision | Comprend-il correctement les demandes ? |
| Adhésion aux instructions | Suit-il les règles de ton prompt système ? |
| Latence | À quelle vitesse répond-il ? |
| Rétention de contexte | Se souvient-il de la conversation antérieure ? |
| Timing des actions | Déclenche-t-il les actions aux bons moments ? |
| Gestion d’erreur | Comment gère-t-il les demandes peu claires ? |
Meilleures pratiques
Commencer avec GPT-4.1 Mini
Commencer avec GPT-4.1 Mini
Pour la plupart des agents vocaux, Commence avec :
- Modèle : GPT-4.1 Mini
- Température : 0.0 (ou 0.7 pour plus de personnalité)
Ne pas trop dépenser en intelligence
Ne pas trop dépenser en intelligence
Commence petit, montez en gamme seulement si nécessaire :
- La plupart des cas d’usage fonctionnent très bien avec GPT-4.1 Mini
- Montez vers GPT-4.1 ou Claude Sonnet 4.5 seulement si Mini ne peut pas gérer ton complexité
- Utilise Groq pour le routage simple/FAQ où la vitesse compte plus que l’intelligence
Surveiller les performances réelles
Surveiller les performances réelles
Utilise l’analytique pour suivre :
- Temps de réponse moyen
- Taux de succès des actions
- Taux de transfert (transferts élevés peuvent indiquer des problèmes de raisonnement)
- Scores de satisfaction client
Considérer le déploiement régional
Considérer le déploiement régional
Si tu sers des clients mondiaux :
- Utilise des modèles hébergés en UE pour les appelants européens (RGPD)
- Considérez les déploiements Azure régionaux pour la conformité d’entreprise
- Tenez compte de la latence depuis la région d’hébergement du modèle vers les clients
Documenter les changements de modèle
Documenter les changements de modèle
Lors du changement de modèles en production :
- Note la date et la raison dans la description de l’agent
- Surveillez les métriques pendant 24-48 heures après
- Garde l’ID du modèle précédent documenté pour rollback
- Teste minutieusement avant de changer les agents à haut volume
Dépannage des problèmes de modèle
Les réponses de l’agent sont trop verbeuses
Solutions :- Ajoute aux instructions : “Garde chaque réponse sous 25 secondes”
- Utilise température 0.0 pour des réponses plus focalisées et concises
- Considérez un modèle plus rapide qui encourage la brièveté
L’agent comprend mal les demandes
Solutions :- Passe à un modèle de capacité supérieure (GPT-4.1, Claude Sonnet 4.5)
- Améliore les instructions avec des exemples plus spécifiques
- Ajoute un boost de mots-clés dans les paramètres du transcripteur
- Examine d’abord la précision de transcription (peut être un problème STT, pas LLM)
L’agent ne suit pas les instructions
Solutions :- Les modèles Claude généralement meilleurs pour l’adhésion aux instructions
- Simplifiez et Clarifie les instructions
- Utilise des listes à puces au lieu de paragraphes
- Ajoute des exemples explicites de comportement correct
- Utilise température 0.0 pour cohérence maximale
Latence élevée / réponses lentes
Solutions :- Passe à un modèle plus rapide (Groq Llama 3.1 8B, Claude Haiku 4.5)
- Vérifie si le problème est la latence du modèle ou du réseau (Teste avec différents fournisseurs)
L’agent répète les mêmes phrases
Solutions :- Ajoute l’instruction : “Variez ton formulation ; Évite les expressions répétitives”
- Considérez un modèle différent (certains ont meilleure diversité)
- Examine si les instructions causent involontairement la répétition
Mises à jour et versionnage des modèles
Mises à jour de modèles des fournisseurs
Les fournisseurs de modèles mettent régulièrement à jour leurs offres :- Les mises à jour mineures améliorent souvent les performances sans changements cassants
- Les changements de version majeure (ex : GPT-4 → GPT-5) peuvent nécessiter des tests
- itellicoAI notifie les clients avant les mises à jour de version automatiques
Contrôle des versions de modèle
Certains fournisseurs te permettent d’épingler à des versions spécifiques :- Dernière : Toujours utiliser la version la plus récente (par défaut, recommandé)
- Épinglée : Rester sur une version spécifique (Utilise si tu as lourdement optimisé pour ce modèle)
Politique de dépréciation
Quand les fournisseurs déprécient des modèles :- itellicoAI notifie les clients affectés à l’avance
- Chemin de migration recommandé fourni
- Les agents sont automatiquement déplacés vers le modèle successeur si aucune action n’est prise
- Assistance à la migration disponible via le support
Prochaines étapes
Sélectionner la voix
Configure comment sonne ton agent avec la sélection de voix
Configuration du transcripteur
Choisis les modèles de transcription pour écouter les clients
Paramètres vocaux
Affinez la vitesse, le ton et le timbre de ton voix
Teste ton agent
Teste les performances du modèle avec des appels web