Visão Geral
O modelo de IA (LLM) é o cérebro do seu agente de voz. Ele processa o que os clientes dizem, entende suas intenções, raciocina sobre a melhor resposta e decide quando executar ações. Escolher o modelo certo significa equilibrar desempenho, latência, custo e requisitos de conformidade.A seleção do modelo acontece em Modelos > Modelo na configuração do seu agente. As alterações são aplicadas imediatamente—não é necessária uma etapa de publicação separada.
Entendendo Modelos de Linguagem
Modelos de linguagem são treinados em grandes quantidades de texto para entender e gerar linguagem humana. Em agentes de voz, o LLM interpreta solicitações de clientes, raciocina sobre a melhor resposta com base em suas instruções e base de conhecimento, decide quando usar ações como transferências ou agendamentos, gera respostas de conversação naturais e mantém o contexto durante toda a conversa. Diferentes modelos se destacam em diferentes tarefas. Alguns priorizam velocidade, outros precisão, e alguns oferecem o melhor equilíbrio para IA conversacional.Modelos Recomendados
Com base no desempenho do mundo real de milhares de agentes de voz, aqui estão os modelos comprovados para diferentes casos de uso:Melhor para a Maioria dos Casos: GPT-4.1 Mini
Melhor para a Maioria dos Casos: GPT-4.1 Mini
Nossa principal recomendação para agentes de voz em produção.Por que funciona:
- Excelente latência (~700-800ms de tempo de resposta)
- 70%+ de taxa de sucesso em chamadas de função (transferências, agendamentos, ações)
- Forte adesão às instruções
- Custo acessível
- Suporte ao cliente
- Agendamento de consultas
- Processamento de pedidos
- A maioria dos cenários de conversação
Para Tarefas Complexas: GPT-4.1
Para Tarefas Complexas: GPT-4.1
Quando você precisa de máxima inteligência e raciocínio.Por que funciona:
- Raciocínio de primeira classe e lógica de múltiplas etapas
- Lida com solução de problemas complexos
- Compreensão de contexto superior
- Latência maior que GPT-4.1 Mini
- Custo maior por conversa
- Suporte técnico com diagnósticos complexos
- Conversas de vendas com múltiplas etapas
- Tarefas que exigem raciocínio profundo
Rápido e Acessível: Claude Haiku 4.5
Rápido e Acessível: Claude Haiku 4.5
O modelo mais rápido da Anthropic com forte desempenho.Por que funciona:
- Tempos de resposta abaixo de um segundo
- Bom equilíbrio entre velocidade e inteligência
- IA Constitucional para respostas mais seguras
- Custo menor que Sonnet
- Centrais de atendimento de alto volume
- Aplicações críticas em termos de velocidade
- Implantações com orçamento limitado
Código Aberto Ultra-Rápido: Groq Llama 3.1 8B
Código Aberto Ultra-Rápido: Groq Llama 3.1 8B
Opção mais rápida disponível, alimentada pelo hardware personalizado da Groq.Por que funciona:
- Tempos de resposta abaixo de 500ms
- Lida com centenas de tokens por segundo
- Modelo de código aberto
- Custo muito baixo
- Menos inteligente que GPT-4.1 ou Claude
- Picos ocasionais de latência sob carga
- Melhor para conversas mais simples
- Chamadas simples de qualificação
- IVR e roteamento
- Cenários de alto volume e baixa complexidade
Mais Inteligência da Groq: Llama 3.3 70B
Mais Inteligência da Groq: Llama 3.3 70B
Melhor raciocínio mantendo a vantagem de velocidade da Groq.Por que funciona:
- Aumento de qualidade em relação ao modelo 8B
- Ainda rápido na infraestrutura Groq
- Bom meio-termo
- Quando a qualidade do Llama 3.1 8B não é suficiente
- Precisa de velocidade mas com mais inteligência
Interface de Seleção de Modelo
Catálogo de Provedores
A interface de seleção de modelo agrupa provedores com metadados úteis:Ícones de Provedores
Marca visual para OpenAI, Anthropic, Groq, Azure e outros
Badge Hospedado na UE
Indica modelos que processam dados dentro de regiões da UE
Contagem de Modelos
Mostra quantos modelos estão disponíveis de cada provedor
Seleção Ativa
Destaca seu modelo atualmente selecionado
Filtragem e Pesquisa
Clique em um provedor para filtrar a tabela de modelos apenas para esse fornecedor. Use a caixa de pesquisa para encontrar rapidamente modelos específicos por nome ou capacidade.Detalhes dos Provedores de Modelos
OpenAI
Os modelos OpenAI oferecem o melhor equilíbrio entre confiabilidade e chamadas de função para agentes de voz. GPT-4.1 Mini ⭐ Recomendado- Desempenho no mundo real: ~700-800ms de tempo de resposta, 70%+ de taxa de sucesso em chamadas de função
- Melhor para: Agentes de voz em produção - suporte, agendamento, vendas
- Por que funciona: Confiabilidade comprovada, excelente uso de ferramentas, boa latência
- Desempenho no mundo real: Latência maior que Mini mas raciocínio superior
- Melhor para: Conversas complexas de múltiplas etapas, suporte técnico
- Compensação: Custo e latência maiores para mais inteligência
- Status: Modelos de próxima geração com raciocínio avançado
- Considerações: GPT-5 tem latência maior (~1s+); GPT-5 Mini oferece melhor equilíbrio
- Melhor para: Tarefas onde inteligência importa mais que velocidade
- Status: Ainda funcionais, mas considere a série GPT-4.1/5 para novos agentes
Azure OpenAI (Hospedado na UE)
Os mesmos modelos OpenAI hospedados na UE (região Central da Suécia). Por que escolher Azure OpenAI:- Hospedagem na UE: Dados processados dentro da UE
- Recursos empresariais: Segurança Azure, conformidade, SLAs
- Mesmos modelos: GPT-4.1, GPT-4.1 Mini, GPT-5 Mini/Nano
Anthropic
Os modelos Claude se destacam em segurança, adesão a instruções e raciocínio complexo. Claude Haiku 4.5 ⭐ Recomendado- Desempenho no mundo real: Respostas abaixo de um segundo, excelente relação velocidade-inteligência
- Melhor para: Implantações críticas em termos de velocidade, casos de uso de alto volume
- Por que funciona: Rápido, acessível, forte segurança de IA Constitucional
- Desempenho no mundo real: Excelente para fluxos de trabalho complexos de agentes e uso de ferramentas
- Melhor para: Raciocínio de múltiplas etapas, procedimentos complexos, tarefas de codificação
- Considerações: Pode ter picos de latência sob carga pesada; monitore timeouts em produção
- Pensamento estendido: Suporta cadeias de raciocínio mais longas para problemas complexos
Os modelos Claude são mais conversacionais e ricos em suas respostas comparados aos modelos OpenAI. Eles naturalmente fornecem respostas mais completas e nuançadas. Isso os torna excelentes para interações envolventes com clientes, mas eles podem ocasionalmente se desculpar demais. Teste com seu caso de uso específico para ver se o estilo conversacional atende às suas necessidades.
Groq (Latência Ultra-Baixa)
Modelos de código aberto em hardware personalizado para velocidade máxima. Llama 3.1 8B Instant ⭐ Mais Rápido- Desempenho no mundo real: Tempos de resposta abaixo de 500ms, centenas de tokens/segundo
- Melhor para: Qualificação simples, IVR, roteamento, cenários de alto volume
- Compensação: Menos inteligente que GPT-4.1 ou Claude
- Atenção para: Picos ocasionais de latência sob carga pesada
- Desempenho no mundo real: Melhor raciocínio que 8B mantendo velocidade da Groq
- Melhor para: Quando você precisa de mais inteligência que 8B mas quer a vantagem de velocidade da Groq
- Desempenho no mundo real: Modelo 20B é super rápido no hardware Groq, similar às velocidades do Llama
- Status: Modelos OpenAI de peso aberto com suporte a uso de ferramentas
- Melhor para: Alternativa de código aberto rápida com chamadas de função
Parâmetros do Modelo
Clique em Parâmetros do Modelo para acessar opções de configuração avançadas que controlam como o modelo se comporta.Temperatura
Controla a aleatoriedade nas respostas (faixa: 0.0 a 2.0)-
0.0 (Recomendado): Respostas determinísticas e consistentes
- Use para: A maioria dos agentes de voz, chamadas de ferramentas, execução de ações
- Maximiza a confiabilidade para transferências, agendamentos e chamadas de API
- Garante comportamento consistente e respostas previsíveis
-
0.1 - 0.3: Ligeiramente variado mas ainda altamente consistente
- Use para: Agentes que precisam de leve variação natural
- Ainda confiável para chamadas de ferramentas
-
0.4 - 0.7: Mais criativo e variado
- Use para: Agentes orientados à personalidade onde criatividade importa mais que consistência
- Confiabilidade das chamadas de ferramentas diminui
-
0.8+: Altamente criativo, imprevisível
- Evite para agentes de voz em produção
- Chamadas de ferramentas se tornam não confiáveis
Recomendação padrão: Use 0.0 a menos que seu agente precise de mais criatividade humana. Temperatura acima de 0 reduz a confiabilidade das chamadas de ferramentas (transferências, agendamentos, ações).
Escolhendo o Modelo Certo
Framework de Decisão
Use este framework para selecionar seu modelo:1. Comece com o Padrão Correto
1. Comece com o Padrão Correto
Para a maioria dos casos de uso, comece aqui:
- GPT-4.1 Mini → Melhor equilíbrio entre velocidade, confiabilidade e custo
- Claude Haiku 4.5 → Quando você precisa de respostas mais rápidas ou menor custo
- GPT-4.1 → Raciocínio complexo de múltiplas etapas necessário
- Claude Sonnet 4.5 → Qualidade conversacional máxima
- Groq Llama 3.1 8B → Velocidade abaixo de 500ms é crítica
2. Combine com Seu Caso de Uso
2. Combine com Seu Caso de Uso
Roteamento Simples / FAQ:
- Groq Llama 3.1 8B (mais rápido)
- Llama 3.3 70B (mais inteligente)
- GPT-4.1 Mini ⭐ (recomendado - melhor equilíbrio)
- Claude Haiku 4.5 (mais rápido, mais conversacional)
- GPT-4.1 (quando Mini não é suficiente)
- Claude Sonnet 4.5 (qualidade máxima)
- Claude Sonnet 4.5 (mais rico, mais conversacional)
- GPT-4.1 (quando você precisa de raciocínio + personalidade)
3. Hospedagem na UE
3. Hospedagem na UE
Precisa de hospedagem compatível com GDPR na UE?
- Azure OpenAI é o único provedor com hospedagem na UE
- Todos os modelos GPT-4.1, GPT-4.1 Mini e GPT-5 disponíveis
Combinações Comuns de Modelos
Muitos clientes usam diferentes modelos para diferentes agentes:Testando Desempenho do Modelo
Teste A/B de Modelos
Para comparar modelos cientificamente:- Duplique seu agente no painel
- Altere apenas o modelo em uma versão
- Mantenha todas as outras configurações idênticas (instruções, voz, ações)
- Execute cenários de teste idênticos em ambos
- Compare:
- Qualidade e precisão da resposta
- Latência e velocidade
- Naturalidade da conversa
- Confiabilidade do acionamento de ações
Critérios de Avaliação
Avalie cada modelo em:| Critério | O Que Procurar |
|---|---|
| Precisão | Ele entende solicitações corretamente? |
| Adesão às Instruções | Ele segue as regras do seu prompt de sistema? |
| Latência | Quão rápido ele responde? |
| Retenção de Contexto | Ele lembra da conversa anterior? |
| Tempo de Ação | Ele aciona ações nos momentos certos? |
| Tratamento de Erros | Como ele lida com solicitações pouco claras? |
Melhores Práticas
Comece com GPT-4.1 Mini
Comece com GPT-4.1 Mini
Para a maioria dos agentes de voz, comece com:
- Modelo: GPT-4.1 Mini
- Temperatura: 0.0 (ou 0.7 para mais personalidade)
Não Gaste Demais em Inteligência
Não Gaste Demais em Inteligência
Comece pequeno, atualize apenas se necessário:
- A maioria dos casos de uso funciona muito bem com GPT-4.1 Mini
- Só atualize para GPT-4.1 ou Claude Sonnet 4.5 se Mini não conseguir lidar com sua complexidade
- Use Groq para roteamento simples/FAQ onde velocidade importa mais que inteligência
Monitore Desempenho no Mundo Real
Monitore Desempenho no Mundo Real
Use análises para rastrear:
- Tempo médio de resposta
- Taxas de sucesso de ações
- Taxas de transferência (transferências altas podem indicar problemas de raciocínio)
- Pontuações de satisfação do cliente
Considere Implantação Regional
Considere Implantação Regional
Se atender clientes globais:
- Use modelos hospedados na UE para chamadores europeus (GDPR)
- Considere implantações regionais Azure para conformidade empresarial
- Considere a latência da região de hospedagem do modelo até os clientes
Documente Mudanças de Modelo
Documente Mudanças de Modelo
Ao alterar modelos em produção:
- Anote a data e motivo na descrição do agente
- Monitore métricas por 24-48 horas depois
- Mantenha o ID do modelo anterior documentado para reversão
- Teste completamente antes de mudar agentes de alto volume
Solução de Problemas do Modelo
Respostas do Agente São Muito Verbosas
Soluções:- Adicione às instruções: “Mantenha cada resposta abaixo de 25 segundos”
- Use temperatura 0.0 para respostas mais focadas e concisas
- Considere modelo mais rápido que encoraja brevidade
Agente Não Entende Solicitações
Soluções:- Mude para modelo de capacidade superior (GPT-4.1, Claude Sonnet 4.5)
- Melhore instruções com exemplos mais específicos
- Adicione aumento de palavras-chave nas configurações do transcritor
- Revise precisão da transcrição primeiro (pode ser problema de STT, não LLM)
Agente Não Segue Instruções
Soluções:- Modelos Claude tipicamente melhores em adesão a instruções
- Simplifique e esclareça instruções
- Use listas com marcadores em vez de parágrafos
- Adicione exemplos explícitos de comportamento correto
- Use temperatura 0.0 para máxima consistência
Alta Latência / Respostas Lentas
Soluções:- Mude para modelo mais rápido (Groq Llama 3.1 8B, Claude Haiku 4.5)
- Verifique se problema é latência do modelo ou da rede (teste com diferentes provedores)
Agente Repete Mesmas Frases
Soluções:- Adicione instrução: “Varie suas frases; evite expressões repetitivas”
- Considere modelo diferente (alguns têm melhor diversidade)
- Revise se instruções inadvertidamente causam repetição
Atualizações e Versionamento de Modelos
Atualizações de Modelos dos Provedores
Provedores de modelos atualizam regularmente suas ofertas:- Atualizações menores geralmente melhoram desempenho sem mudanças disruptivas
- Mudanças de versão principal (ex: GPT-4 → GPT-5) podem requerer testes
- itellicoAI notifica clientes antes de atualizações automáticas de versão
Controlando Versões de Modelos
Alguns provedores permitem fixar versões específicas:- Mais recente: Sempre use versão mais nova (padrão, recomendado)
- Fixado: Permanecer em versão específica (use se você otimizou pesadamente para esse modelo)
Política de Descontinuação
Quando provedores descontinuam modelos:- itellicoAI notifica clientes afetados com antecedência
- Caminho de migração recomendado fornecido
- Agentes automaticamente movidos para modelo sucessor se nenhuma ação for tomada
- Assistência de migração disponível pelo suporte