Panoramica
Il modello AI (LLM) è il cervello del tuo agente vocale. Elabora ciò che dicono i clienti, comprende le loro intenzioni, ragiona sulla migliore risposta e decide quando intraprendere azioni. Scegliere il modello giusto significa bilanciare prestazioni, latenza, costo e requisiti di conformità.La selezione del modello avviene sotto Models > Model nella configurazione del tuo agente. Le modifiche si applicano immediatamente—non è richiesto un passaggio di pubblicazione separato.
Comprendere i Modelli Linguistici
I modelli linguistici sono addestrati su enormi quantità di testo per comprendere e generare linguaggio umano. Negli agenti vocali, l’LLM interpreta le richieste dei clienti, ragiona sulla migliore risposta basandosi sulle tue istruzioni e sulla base di conoscenza, decide quando utilizzare azioni come trasferimenti o prenotazioni, genera risposte conversazionali naturali e mantiene il contesto durante tutta la conversazione. Modelli diversi eccellono in compiti diversi. Alcuni danno priorità alla velocità, altri all’accuratezza, e alcuni offrono il miglior equilibrio per l’AI conversazionale.Modelli Consigliati
Basandosi sulle prestazioni reali di migliaia di agenti vocali, ecco i modelli comprovati per diversi casi d’uso:Migliore per la Maggior Parte dei Casi d'Uso: GPT-4.1 Mini
Migliore per la Maggior Parte dei Casi d'Uso: GPT-4.1 Mini
La nostra raccomandazione principale per agenti vocali in produzione.Perché funziona:
- Eccellente latenza (~700-800ms tempo di risposta)
- 70%+ tasso di successo nella chiamata di funzioni (trasferimenti, prenotazioni, azioni)
- Forte aderenza alle istruzioni
- Costo accessibile
- Supporto clienti
- Prenotazione appuntamenti
- Elaborazione ordini
- La maggior parte degli scenari conversazionali
Per Compiti Complessi: GPT-4.1
Per Compiti Complessi: GPT-4.1
Quando hai bisogno di massima intelligenza e ragionamento.Perché funziona:
- Ragionamento e logica multi-step migliori della categoria
- Gestisce risoluzione problemi complessi
- Comprensione del contesto superiore
- Latenza più alta di GPT-4.1 Mini
- Costo più alto per conversazione
- Supporto tecnico con diagnostica complessa
- Conversazioni di vendita multi-step
- Compiti che richiedono ragionamento profondo
Veloce ed Economico: Claude Haiku 4.5
Veloce ed Economico: Claude Haiku 4.5
Il modello più veloce di Anthropic con prestazioni solide.Perché funziona:
- Tempi di risposta inferiori al secondo
- Buon equilibrio tra velocità e intelligenza
- AI Costituzionale per risposte più sicure
- Costo inferiore a Sonnet
- Call center ad alto volume
- Applicazioni critiche per la velocità
- Implementazioni attente al budget
Open Source Ultra-Veloce: Groq Llama 3.1 8B
Open Source Ultra-Veloce: Groq Llama 3.1 8B
Opzione più veloce disponibile, alimentata dall’hardware personalizzato di Groq.Perché funziona:
- Tempi di risposta inferiori a 500ms
- Gestisce centinaia di token al secondo
- Modello open source
- Costo molto basso
- Meno intelligente di GPT-4.1 o Claude
- Occasionali picchi di latenza sotto carico
- Migliore per conversazioni più semplici
- Chiamate di qualificazione semplici
- IVR e routing
- Scenari ad alto volume e bassa complessità
Più Intelligenza da Groq: Llama 3.3 70B
Più Intelligenza da Groq: Llama 3.3 70B
Miglior ragionamento mantenendo il vantaggio di velocità di Groq.Perché funziona:
- Miglioramento di qualità rispetto al modello 8B
- Ancora veloce sull’infrastruttura Groq
- Buon compromesso
- Quando la qualità di Llama 3.1 8B non è sufficiente
- Necessità di velocità ma maggiore intelligenza
Interfaccia di Selezione del Modello
Catalogo dei Provider
L’interfaccia di selezione del modello raggruppa i provider con metadati utili:Icone Provider
Branding visivo per OpenAI, Anthropic, Groq, Azure e altri
Badge Ospitato in UE
Indica i modelli che elaborano i dati all’interno delle regioni UE
Conteggio Modelli
Mostra quanti modelli sono disponibili da ciascun provider
Selezione Attiva
Evidenzia il tuo modello attualmente selezionato
Filtro e Ricerca
Clicca su un provider per filtrare la tabella dei modelli solo per quel fornitore. Usa la casella di ricerca per trovare rapidamente modelli specifici per nome o capacità.Dettagli dei Provider di Modelli
OpenAI
I modelli OpenAI offrono il miglior equilibrio tra affidabilità e chiamata di funzioni per gli agenti vocali. GPT-4.1 Mini ⭐ Consigliato- Prestazioni reali: ~700-800ms tempo di risposta, 70%+ tasso di successo nella chiamata di funzioni
- Migliore per: Agenti vocali in produzione - supporto, prenotazioni, vendite
- Perché funziona: Affidabilità comprovata, eccellente uso degli strumenti, buona latenza
- Prestazioni reali: Latenza più alta di Mini ma ragionamento superiore
- Migliore per: Conversazioni multi-step complesse, supporto tecnico
- Compromesso: Costo e latenza più alti per maggiore intelligenza
- Stato: Modelli di prossima generazione con ragionamento avanzato
- Considerazioni: GPT-5 ha latenza più alta (~1s+); GPT-5 Mini offre un equilibrio migliore
- Migliore per: Compiti in cui l’intelligenza conta più della velocità
- Stato: Ancora funzionali ma considera la serie GPT-4.1/5 per nuovi agenti
Azure OpenAI (Ospitato in UE)
Stessi modelli OpenAI ospitati in UE (regione Svezia Centrale). Perché scegliere Azure OpenAI:- Hosting UE: Dati elaborati all’interno dell’UE
- Funzionalità enterprise: Sicurezza Azure, conformità, SLA
- Stessi modelli: GPT-4.1, GPT-4.1 Mini, GPT-5 Mini/Nano
Anthropic
I modelli Claude eccellono in sicurezza, aderenza alle istruzioni e ragionamento complesso. Claude Haiku 4.5 ⭐ Consigliato- Prestazioni reali: Risposte inferiori al secondo, eccellente rapporto velocità-intelligenza
- Migliore per: Implementazioni critiche per la velocità, casi d’uso ad alto volume
- Perché funziona: Veloce, accessibile, forte sicurezza AI Costituzionale
- Prestazioni reali: Eccellente per flussi di lavoro degli agenti complessi e uso degli strumenti
- Migliore per: Ragionamento multi-step, procedure complesse, compiti di codifica
- Considerazioni: Può avere picchi di latenza sotto carico pesante; monitora i timeout in produzione
- Pensiero esteso: Supporta catene di ragionamento più lunghe per problemi complessi
I modelli Claude sono più conversazionali e ricchi nelle loro risposte rispetto ai modelli OpenAI. Forniscono naturalmente risposte più complete e sfumate. Questo li rende eccellenti per interazioni coinvolgenti con i clienti, ma possono occasionalmente scusarsi troppo. Testa con il tuo caso d’uso specifico per vedere se lo stile conversazionale si adatta alle tue esigenze.
Groq (Latenza Ultra-Bassa)
Modelli open-source su hardware personalizzato per massima velocità. Llama 3.1 8B Instant ⭐ Il Più Veloce- Prestazioni reali: Tempi di risposta inferiori a 500ms, centinaia di token/secondo
- Migliore per: Qualificazione semplice, IVR, routing, scenari ad alto volume
- Compromesso: Meno intelligente di GPT-4.1 o Claude
- Attenzione a: Occasionali picchi di latenza sotto carico pesante
- Prestazioni reali: Miglior ragionamento di 8B mantenendo la velocità di Groq
- Migliore per: Quando serve più intelligenza di 8B ma si vuole il vantaggio di velocità di Groq
- Prestazioni reali: Il modello 20B è super veloce sull’hardware Groq, velocità simili a Llama
- Stato: Modelli OpenAI a peso aperto con supporto per l’uso degli strumenti
- Migliore per: Alternativa open-source veloce con chiamata di funzioni
Parametri del Modello
Clicca su Model Parameters per accedere alle opzioni di configurazione avanzate che controllano il comportamento del modello.Temperatura
Controlla la casualità nelle risposte (intervallo: 0.0 a 2.0)-
0.0 (Consigliato): Risposte deterministiche e coerenti
- Usa per: La maggior parte degli agenti vocali, chiamata di strumenti, esecuzione di azioni
- Massimizza l’affidabilità per trasferimenti, prenotazioni e chiamate API
- Assicura comportamento coerente e risposte prevedibili
-
0.1 - 0.3: Leggermente variato ma ancora altamente coerente
- Usa per: Agenti che necessitano di leggera variazione naturale
- Ancora affidabile per la chiamata di strumenti
-
0.4 - 0.7: Più creativo e variato
- Usa per: Agenti guidati dalla personalità dove la creatività conta più della coerenza
- L’affidabilità della chiamata di strumenti diminuisce
-
0.8+: Altamente creativo, imprevedibile
- Evita per agenti vocali in produzione
- La chiamata di strumenti diventa inaffidabile
Raccomandazione predefinita: Usa 0.0 a meno che il tuo agente non necessiti di maggiore creatività simile a quella umana. Temperatura superiore a 0 riduce l’affidabilità della chiamata di strumenti (trasferimenti, prenotazioni, azioni).
Scegliere il Modello Giusto
Framework Decisionale
Usa questo framework per selezionare il tuo modello:1. Inizia con il Giusto Predefinito
1. Inizia con il Giusto Predefinito
Per la maggior parte dei casi d’uso, inizia qui:
- GPT-4.1 Mini → Miglior equilibrio tra velocità, affidabilità e costo
- Claude Haiku 4.5 → Quando serve risposte più veloci o costo inferiore
- GPT-4.1 → Richiesto ragionamento multi-step complesso
- Claude Sonnet 4.5 → Qualità conversazionale massima
- Groq Llama 3.1 8B → Velocità inferiore a 500ms è critica
2. Abbina al Tuo Caso d'Uso
2. Abbina al Tuo Caso d'Uso
Routing Semplice / FAQ:
- Groq Llama 3.1 8B (il più veloce)
- Llama 3.3 70B (più intelligente)
- GPT-4.1 Mini ⭐ (consigliato - miglior equilibrio)
- Claude Haiku 4.5 (più veloce, più conversazionale)
- GPT-4.1 (quando Mini non è sufficiente)
- Claude Sonnet 4.5 (qualità massima)
- Claude Sonnet 4.5 (più ricco, più conversazionale)
- GPT-4.1 (quando serve ragionamento + personalità)
3. Hosting UE
3. Hosting UE
Serve hosting UE conforme al GDPR?
- Azure OpenAI è l’unico provider con hosting UE
- Tutti i modelli GPT-4.1, GPT-4.1 Mini e GPT-5 disponibili
Combinazioni Comuni di Modelli
Molti clienti utilizzano modelli diversi per agenti diversi:Testare le Prestazioni del Modello
Test A/B dei Modelli
Per confrontare i modelli scientificamente:- Duplica il tuo agente nella dashboard
- Cambia solo il modello su una versione
- Mantieni tutte le altre impostazioni identiche (istruzioni, voce, azioni)
- Esegui scenari di test identici su entrambi
- Confronta:
- Qualità e accuratezza delle risposte
- Latenza e velocità
- Naturalezza della conversazione
- Affidabilità dell’attivazione delle azioni
Criteri di Valutazione
Valuta ogni modello su:| Criteri | Cosa Cercare |
|---|---|
| Accuratezza | Comprende correttamente le richieste? |
| Aderenza alle Istruzioni | Segue le regole del tuo prompt di sistema? |
| Latenza | Quanto velocemente risponde? |
| Ritenzione del Contesto | Ricorda la conversazione precedente? |
| Tempistica Azioni | Attiva le azioni nei momenti giusti? |
| Gestione Errori | Come gestisce richieste poco chiare? |
Migliori Pratiche
Inizia con GPT-4.1 Mini
Inizia con GPT-4.1 Mini
Per la maggior parte degli agenti vocali, inizia con:
- Modello: GPT-4.1 Mini
- Temperatura: 0.0 (o 0.7 per più personalità)
Non Spendere Troppo in Intelligenza
Non Spendere Troppo in Intelligenza
Inizia in piccolo, aggiorna solo se necessario:
- La maggior parte dei casi d’uso funziona benissimo con GPT-4.1 Mini
- Aggiorna a GPT-4.1 o Claude Sonnet 4.5 solo se Mini non può gestire la tua complessità
- Usa Groq per routing/FAQ semplici dove la velocità conta più dell’intelligenza
Monitora le Prestazioni Reali
Monitora le Prestazioni Reali
Usa le analitiche per tracciare:
- Tempo medio di risposta
- Tassi di successo delle azioni
- Tassi di trasferimento (trasferimenti alti possono indicare problemi di ragionamento)
- Punteggi di soddisfazione del cliente
Considera l'Implementazione Regionale
Considera l'Implementazione Regionale
Se servi clienti globali:
- Usa modelli ospitati in UE per chiamanti europei (GDPR)
- Considera implementazioni Azure regionali per conformità enterprise
- Considera la latenza dalla regione di hosting del modello ai clienti
Documenta i Cambiamenti del Modello
Documenta i Cambiamenti del Modello
Quando cambi modelli in produzione:
- Annota data e motivo nella descrizione dell’agente
- Monitora le metriche per 24-48 ore dopo
- Mantieni documentato l’ID del modello precedente per il rollback
- Testa accuratamente prima di cambiare agenti ad alto volume
Risoluzione Problemi del Modello
Le Risposte dell’Agente Sono Troppo Verbose
Soluzioni:- Aggiungi alle istruzioni: “Mantieni ogni risposta sotto 25 secondi”
- Usa temperatura 0.0 per risposte più focalizzate e concise
- Considera un modello più veloce che incoraggi la brevità
L’Agente Fraintende le Richieste
Soluzioni:- Passa a un modello di capacità superiore (GPT-4.1, Claude Sonnet 4.5)
- Migliora le istruzioni con esempi più specifici
- Aggiungi keyword boosting nelle impostazioni del trascrittore
- Rivedi prima l’accuratezza della trascrizione (potrebbe essere un problema STT, non LLM)
L’Agente Non Segue le Istruzioni
Soluzioni:- I modelli Claude tipicamente migliori nell’aderenza alle istruzioni
- Semplifica e chiarisci le istruzioni
- Usa elenchi puntati invece di paragrafi
- Aggiungi esempi espliciti di comportamento corretto
- Usa temperatura 0.0 per massima coerenza
Latenza Alta / Risposte Lente
Soluzioni:- Passa a un modello più veloce (Groq Llama 3.1 8B, Claude Haiku 4.5)
- Verifica se il problema è latenza del modello o di rete (testa con provider diversi)
L’Agente Ripete le Stesse Frasi
Soluzioni:- Aggiungi istruzione: “Varia la tua formulazione; evita espressioni ripetitive”
- Considera un modello diverso (alcuni hanno migliore diversità)
- Rivedi se le istruzioni causano inavvertitamente ripetizione
Aggiornamenti e Versionamento dei Modelli
Aggiornamenti dei Modelli dei Provider
I provider di modelli aggiornano regolarmente le loro offerte:- Aggiornamenti minori spesso migliorano le prestazioni senza modifiche che interrompono
- Cambiamenti di versione maggiori (es. GPT-4 → GPT-5) possono richiedere test
- itellicoAI notifica i clienti prima degli aggiornamenti automatici di versione
Controllo delle Versioni dei Modelli
Alcuni provider ti permettono di fissare versioni specifiche:- Latest: Usa sempre la versione più recente (predefinito, consigliato)
- Pinned: Rimani su una versione specifica (usa se hai ottimizzato pesantemente per quel modello)
Politica di Deprecazione
Quando i provider deprecano i modelli:- itellicoAI notifica i clienti interessati in anticipo
- Percorso di migrazione consigliato fornito
- Gli agenti vengono spostati automaticamente al modello successore se non viene intrapresa alcuna azione
- Assistenza alla migrazione disponibile dal supporto
Prossimi Passi
Seleziona Voce
Configura come suona il tuo agente con la selezione della voce
Configurazione Trascrittore
Scegli i modelli di trascrizione per ascoltare i clienti
Impostazioni Voce
Regola finemente velocità, tono e timbro per la tua voce
Testa il Tuo Agente
Testa le prestazioni del modello con chiamate web