itellicoAI Documentation

Descripción General

El modelo de IA (LLM) es el cerebro de su agente de voz. Procesa lo que dicen los clientes, comprende su intención, razona sobre la mejor respuesta y decide cuándo tomar acciones. Elegir el modelo correcto significa equilibrar el rendimiento, la latencia, el costo y los requisitos de cumplimiento.

La selección de modelo ocurre en Modelos > Modelo en la configuración de su agente. Los cambios se aplican inmediatamente—no se requiere un paso de publicación separado.

Comprender los Modelos de Lenguaje

Los modelos de lenguaje se entrenan con grandes cantidades de texto para comprender y generar lenguaje humano. En los agentes de voz, el LLM interpreta las solicitudes de los clientes, razona sobre la mejor respuesta según sus instrucciones y base de conocimiento, decide cuándo usar acciones como transferencias o reservas, genera respuestas de conversación naturales y mantiene el contexto a lo largo de la conversación. Los diferentes modelos destacan en diferentes tareas. Algunos priorizan la velocidad, otros la precisión, y algunos ofrecen el mejor equilibrio para la IA conversacional.

Modelos Recomendados

Basados en el rendimiento en el mundo real de miles de agentes de voz, estos son los modelos probados para diferentes casos de uso:

Mejor para la Mayoría de Casos de Uso: GPT-4.1 Mini

Nuestra principal recomendación para agentes de voz en producción.Por qué funciona:

Excelente latencia (~700-800ms tiempo de respuesta)
70%+ tasa de éxito en llamadas a funciones (transferencias, reservas, acciones)
Fuerte seguimiento de instrucciones
Costo asequible

Usar para:

Soporte al cliente
Reserva de citas
Procesamiento de pedidos
La mayoría de escenarios conversacionales

Disponible en: OpenAI, Azure OpenAI (alojado en la UE)

Para Tareas Complejas: GPT-4.1

Cuando necesita máxima inteligencia y razonamiento.Por qué funciona:

Mejor razonamiento de su clase y lógica de múltiples pasos
Maneja solución de problemas complejos
Comprensión superior del contexto

Compensaciones:

Mayor latencia que GPT-4.1 Mini
Mayor costo por conversación

Usar para:

Soporte técnico con diagnósticos complejos
Conversaciones de ventas de múltiples pasos
Tareas que requieren razonamiento profundo

Disponible en: OpenAI, Azure OpenAI (alojado en la UE)

Rápido y Asequible: Claude Haiku 4.5

El modelo más rápido de Anthropic con fuerte rendimiento.Por qué funciona:

Tiempos de respuesta inferiores a un segundo
Buen equilibrio de velocidad e inteligencia
IA Constitucional para respuestas más seguras
Menor costo que Sonnet

Usar para:

Centros de llamadas de alto volumen
Aplicaciones críticas en velocidad
Despliegues conscientes del presupuesto

Disponible en: Anthropic

Código Abierto Ultra-Rápido: Groq Llama 3.1 8B

Opción más rápida disponible, impulsada por hardware personalizado de Groq.Por qué funciona:

Tiempos de respuesta inferiores a 500ms
Maneja cientos de tokens por segundo
Modelo de código abierto
Costo muy bajo

Compensaciones:

Menos inteligente que GPT-4.1 o Claude
Picos ocasionales de latencia bajo carga
Mejor para conversaciones simples

Usar para:

Llamadas simples de calificación
IVR y enrutamiento
Escenarios de alto volumen y baja complejidad

Disponible en: Groq

Más Inteligencia de Groq: Llama 3.3 70B

Mejor razonamiento manteniendo la ventaja de velocidad de Groq.Por qué funciona:

Mejora en calidad respecto al modelo 8B
Aún rápido en la infraestructura de Groq
Buen punto medio

Usar para:

Cuando la calidad de Llama 3.1 8B no es suficiente
Necesita velocidad pero más inteligencia

Disponible en: Groq

Guía de decisión rápida:

Comience con GPT-4.1 Mini → confiable, rápido, excelente para la mayoría de casos de uso
¿Necesita más razonamiento? → GPT-4.1
¿Necesita más rápido/económico? → Claude Haiku 4.5
¿Necesita lo más rápido? → Groq Llama 3.1 8B (pero menos inteligente)

Interfaz de Selección de Modelo

Catálogo de Proveedores

La interfaz de selección de modelo agrupa proveedores con metadatos útiles:

Íconos de Proveedor

Marca visual para OpenAI, Anthropic, Groq, Azure y más

Insignia Alojado en la UE

Indica modelos que procesan datos dentro de regiones de la UE

Recuento de Modelos

Muestra cuántos modelos están disponibles de cada proveedor

Selección Activa

Resalta su modelo seleccionado actualmente

Filtrado y Búsqueda

Haga clic en un proveedor para filtrar la tabla de modelos solo a ese proveedor. Use el cuadro de búsqueda para encontrar rápidamente modelos específicos por nombre o capacidad.

Detalles del Proveedor de Modelo

OpenAI

Los modelos de OpenAI ofrecen el mejor equilibrio de confiabilidad y llamadas a funciones para agentes de voz. GPT-4.1 Mini ⭐ Recomendado

Rendimiento en el mundo real: ~700-800ms tiempo de respuesta, 70%+ tasa de éxito en llamadas a funciones
Mejor para: Agentes de voz en producción - soporte, reservas, ventas
Por qué funciona: Confiabilidad probada, excelente uso de herramientas, buena latencia

GPT-4.1

Rendimiento en el mundo real: Mayor latencia que Mini pero razonamiento superior
Mejor para: Conversaciones complejas de múltiples pasos, soporte técnico
Compensación: Mayor costo y latencia por más inteligencia

Serie GPT-5 (Mini, Nano)

Estado: Modelos de próxima generación con razonamiento avanzado
Consideraciones: GPT-5 tiene mayor latencia (~1s+); GPT-5 Mini ofrece mejor equilibrio
Mejor para: Tareas donde la inteligencia importa más que la velocidad

Modelos heredados (GPT-4o, GPT-4o Mini)

Estado: Aún funcionales pero considere la serie GPT-4.1/5 para nuevos agentes

Azure OpenAI (Alojado en la UE)

Los mismos modelos de OpenAI alojados en la UE (región Suecia Central). Por qué elegir Azure OpenAI:

Alojamiento en la UE: Datos procesados dentro de la UE
Características empresariales: Seguridad de Azure, cumplimiento, SLAs
Mismos modelos: GPT-4.1, GPT-4.1 Mini, GPT-5 Mini/Nano

Anthropic

Los modelos Claude destacan en seguridad, seguimiento de instrucciones y razonamiento complejo. Claude Haiku 4.5 ⭐ Recomendado

Rendimiento en el mundo real: Respuestas inferiores a un segundo, excelente relación velocidad-inteligencia
Mejor para: Despliegues críticos en velocidad, casos de uso de alto volumen
Por qué funciona: Rápido, asequible, fuerte seguridad de IA Constitucional

Claude Sonnet 4.5

Rendimiento en el mundo real: Excelente para flujos de trabajo de agentes complejos y uso de herramientas
Mejor para: Razonamiento de múltiples pasos, procedimientos complejos, tareas de codificación
Consideraciones: Puede tener picos de latencia bajo carga intensa; monitoree tiempos de espera en producción
Pensamiento extendido: Soporta cadenas de razonamiento más largas para problemas complejos

Los modelos Claude son más conversacionales y ricos en sus respuestas comparados con los modelos de OpenAI. Naturalmente proporcionan respuestas más completas y matizadas. Esto los hace excelentes para interacciones atractivas con clientes, pero ocasionalmente pueden disculparse en exceso. Pruebe con su caso de uso específico para ver si el estilo conversacional se ajusta a sus necesidades.

Groq (Latencia Ultra-Baja)

Modelos de código abierto en hardware personalizado para máxima velocidad. Llama 3.1 8B Instant ⭐ Más Rápido

Rendimiento en el mundo real: Tiempos de respuesta inferiores a 500ms, cientos de tokens/segundo
Mejor para: Calificación simple, IVR, enrutamiento, escenarios de alto volumen
Compensación: Menos inteligente que GPT-4.1 o Claude
Cuidado con: Picos ocasionales de latencia bajo carga intensa

Llama 3.3 70B Versatile

Rendimiento en el mundo real: Mejor razonamiento que 8B manteniendo la velocidad de Groq
Mejor para: Cuando necesita más inteligencia que 8B pero quiere la ventaja de velocidad de Groq

Serie GPT-OSS (20B, 120B)

Rendimiento en el mundo real: El modelo 20B es súper rápido en hardware Groq, similar a las velocidades de Llama
Estado: Modelos de pesos abiertos de OpenAI con soporte para uso de herramientas
Mejor para: Alternativa rápida de código abierto con llamadas a funciones

Groq es perfecto para: eliminar cuellos de botella de LLM cuando menos de 800ms es crítico y las tareas son directas (calificación, enrutamiento, recopilación de datos).

Parámetros del Modelo

Haga clic en Parámetros del Modelo para acceder a opciones de configuración avanzadas que controlan cómo se comporta el modelo.

Temperatura

Controla la aleatoriedad en las respuestas (rango: 0.0 a 2.0)

0.0 (Recomendado): Respuestas deterministas y consistentes
- Usar para: La mayoría de agentes de voz, llamadas a herramientas, ejecución de acciones
- Maximiza la confiabilidad para transferencias, reservas y llamadas API
- Asegura comportamiento consistente y respuestas predecibles
0.1 - 0.3: Ligeramente variado pero aún muy consistente
- Usar para: Agentes que necesitan ligera variación natural
- Aún confiable para llamadas a herramientas
0.4 - 0.7: Más creativo y variado
- Usar para: Agentes impulsados por personalidad donde la creatividad importa más que la consistencia
- La confiabilidad de llamadas a herramientas disminuye
0.8+: Altamente creativo, impredecible
- Evitar para agentes de voz en producción
- Las llamadas a herramientas se vuelven no confiables

Recomendación predeterminada: Use 0.0 a menos que su agente necesite más creatividad similar a la humana. La temperatura por encima de 0 reduce la confiabilidad de las llamadas a herramientas (transferencias, reservas, acciones).

Elegir el Modelo Correcto

Marco de Decisión

Use este marco para seleccionar su modelo:

1. Comience con el Predeterminado Correcto

Para la mayoría de casos de uso, comience aquí:

GPT-4.1 Mini → Mejor equilibrio de velocidad, confiabilidad y costo
Claude Haiku 4.5 → Cuando necesita respuestas más rápidas o menor costo

Solo actualice si necesita más inteligencia:

GPT-4.1 → Razonamiento complejo de múltiples pasos requerido
Claude Sonnet 4.5 → Máxima calidad conversacional

Vaya más rápido/económico solo si es necesario:

Groq Llama 3.1 8B → Velocidad inferior a 500ms es crítica

2. Ajustar a Su Caso de Uso

Enrutamiento Simple / FAQ:

Groq Llama 3.1 8B (más rápido)
Llama 3.3 70B (más inteligente)

Soporte al Cliente Estándar (Más Común):

GPT-4.1 Mini ⭐ (recomendado - mejor equilibrio)
Claude Haiku 4.5 (más rápido, más conversacional)

Razonamiento Complejo / Soporte Técnico:

GPT-4.1 (cuando Mini no es suficiente)
Claude Sonnet 4.5 (máxima calidad)

Crítico en Personalidad / Sensible a Marca:

Claude Sonnet 4.5 (más rico, más conversacional)
GPT-4.1 (cuando necesita razonamiento + personalidad)

3. Alojamiento en la UE

¿Necesita alojamiento compatible con GDPR en la UE?

Azure OpenAI es el único proveedor con alojamiento en la UE
Todos los modelos GPT-4.1, GPT-4.1 Mini y GPT-5 disponibles

Combinaciones Comunes de Modelos

Muchos clientes usan diferentes modelos para diferentes agentes:

Soporte Estándar → GPT-4.1 Mini (mejor predeterminado para la mayoría de agentes)
Enrutamiento de Alto Volumen → Groq Llama 3.1 8B (crítico en velocidad, tareas simples)
Reserva de Citas → GPT-4.1 Mini o Claude Haiku 4.5 (llamadas a herramientas confiables)
Solución de Problemas Compleja → GPT-4.1 (cuando necesita más razonamiento)
Crítico en Marca/Personalidad → Claude Sonnet 4.5 (conversaciones más ricas)

Probar el Rendimiento del Modelo

Pruebas A/B de Modelos

Para comparar modelos científicamente:

Duplique su agente en el panel de control
Cambie solo el modelo en una versión
Mantenga todas las demás configuraciones idénticas (instrucciones, voz, acciones)
Ejecute escenarios de prueba idénticos en ambos
Compare:
- Calidad y precisión de la respuesta
- Latencia y velocidad
- Naturalidad de la conversación
- Confiabilidad del activador de acción

Criterios de Evaluación

Califique cada modelo en:

Criterio	Qué Buscar
Precisión	¿Comprende las solicitudes correctamente?
Adherencia a Instrucciones	¿Sigue las reglas de su prompt del sistema?
Latencia	¿Qué tan rápido responde?
Retención de Contexto	¿Recuerda la conversación anterior?
Sincronización de Acciones	¿Activa acciones en los momentos correctos?
Manejo de Errores	¿Cómo maneja las solicitudes poco claras?

Mejores Prácticas

Comience con GPT-4.1 Mini

Para la mayoría de agentes de voz, comience con:

Modelo: GPT-4.1 Mini
Temperatura: 0.0 (o 0.7 para más personalidad)

Solo cambie si las pruebas muestran que necesita más inteligencia o velocidad más rápida.

No Gaste Demasiado en Inteligencia

Comience pequeño, actualice solo si es necesario:

La mayoría de casos de uso funcionan muy bien con GPT-4.1 Mini
Solo actualice a GPT-4.1 o Claude Sonnet 4.5 si Mini no puede manejar su complejidad
Use Groq para enrutamiento/FAQ simple donde la velocidad importa más que la inteligencia

Ajuste la capacidad al requisito—no pague por inteligencia que no necesita.

Monitoree el Rendimiento en el Mundo Real

Use analíticas para rastrear:

Tiempo promedio de respuesta
Tasas de éxito de acciones
Tasas de transferencia (transferencias altas pueden indicar problemas de razonamiento)
Puntuaciones de satisfacción del cliente

Cambie de modelo si las métricas se degradan.

Considere el Despliegue Regional

Si atiende clientes globales:

Use modelos alojados en la UE para llamantes europeos (GDPR)
Considere despliegues regionales de Azure para cumplimiento empresarial
Factor de latencia desde la región de alojamiento del modelo hasta los clientes

Documente Cambios de Modelo

Al cambiar modelos en producción:

Anote la fecha y la razón en la descripción del agente
Monitoree métricas durante 24-48 horas después
Mantenga documentado el ID del modelo anterior para reversión
Pruebe exhaustivamente antes de cambiar agentes de alto volumen

Solución de Problemas del Modelo

Las Respuestas del Agente Son Demasiado Prolijas

Soluciones:

Agregue a las instrucciones: “Mantenga cada respuesta bajo 25 segundos”
Use temperatura 0.0 para respuestas más enfocadas y concisas
Considere modelo más rápido que fomente la brevedad

El Agente Malinterpreta las Solicitudes

Soluciones:

Cambie a modelo de mayor capacidad (GPT-4.1, Claude Sonnet 4.5)
Mejore las instrucciones con ejemplos más específicos
Agregue refuerzo de palabras clave en configuraciones del transcriptor
Revise primero la precisión de la transcripción (puede ser problema STT, no LLM)

El Agente No Sigue las Instrucciones

Soluciones:

Los modelos Claude típicamente mejores en adherencia a instrucciones
Simplifique y clarifique las instrucciones
Use listas con viñetas en lugar de párrafos
Agregue ejemplos explícitos de comportamiento correcto
Use temperatura 0.0 para máxima consistencia

Alta Latencia / Respuestas Lentas

Soluciones:

Cambie a modelo más rápido (Groq Llama 3.1 8B, Claude Haiku 4.5)
Verifique si el problema es latencia del modelo o de red (pruebe con diferentes proveedores)

El Agente Repite las Mismas Frases

Soluciones:

Agregue instrucción: “Varíe su redacción; evite expresiones repetitivas”
Considere modelo diferente (algunos tienen mejor diversidad)
Revise si las instrucciones causan inadvertidamente repetición

Actualizaciones y Versiones del Modelo

Actualizaciones del Modelo del Proveedor

Los proveedores de modelos actualizan regularmente sus ofertas:

Actualizaciones menores a menudo mejoran el rendimiento sin cambios que rompan
Cambios de versión principales (ej., GPT-4 → GPT-5) pueden requerir pruebas
itellicoAI notifica a los clientes antes de actualizaciones automáticas de versión

Controlar Versiones del Modelo

Algunos proveedores le permiten fijar versiones específicas:

Última: Siempre use la versión más nueva (predeterminado, recomendado)
Fija: Permanezca en versión específica (use si ha optimizado mucho para ese modelo)

Política de Depreciación

Cuando los proveedores deprecian modelos:

itellicoAI notifica a los clientes afectados con anticipación
Se proporciona ruta de migración recomendada
Los agentes se mueven automáticamente al modelo sucesor si no se toma acción
Asistencia de migración disponible desde soporte

Próximos Pasos

Seleccionar Voz

Configure cómo suena su agente con la selección de voz

Configuración del Transcriptor

Elija modelos de transcripción para escuchar a los clientes

Configuraciones de Voz

Ajuste la velocidad, tono y timbre para su voz

Pruebe Su Agente

Pruebe el rendimiento del modelo con llamadas web

Primeros pasos

Crear

Probar

Lanzar

Optimizar

Cuentas y subcuentas

Red de socios

Legal

​Descripción General

​Comprender los Modelos de Lenguaje

​Modelos Recomendados

​Interfaz de Selección de Modelo

​Catálogo de Proveedores

Íconos de Proveedor

Insignia Alojado en la UE

Recuento de Modelos

Selección Activa

​Filtrado y Búsqueda

​Detalles del Proveedor de Modelo

​OpenAI

​Azure OpenAI (Alojado en la UE)

​Anthropic

​Groq (Latencia Ultra-Baja)

​Parámetros del Modelo

​Temperatura

​Elegir el Modelo Correcto

​Marco de Decisión

​Combinaciones Comunes de Modelos

​Probar el Rendimiento del Modelo

​Pruebas A/B de Modelos

​Criterios de Evaluación

​Mejores Prácticas

​Solución de Problemas del Modelo

​Las Respuestas del Agente Son Demasiado Prolijas

​El Agente Malinterpreta las Solicitudes

​El Agente No Sigue las Instrucciones

​Alta Latencia / Respuestas Lentas

​El Agente Repite las Mismas Frases

​Actualizaciones y Versiones del Modelo

​Actualizaciones del Modelo del Proveedor

​Controlar Versiones del Modelo

​Política de Depreciación

​Próximos Pasos

Seleccionar Voz

Configuración del Transcriptor

Configuraciones de Voz

Pruebe Su Agente

Descripción General

Comprender los Modelos de Lenguaje

Modelos Recomendados

Interfaz de Selección de Modelo

Catálogo de Proveedores

Filtrado y Búsqueda

Detalles del Proveedor de Modelo

OpenAI

Azure OpenAI (Alojado en la UE)

Anthropic

Groq (Latencia Ultra-Baja)

Parámetros del Modelo

Temperatura

Elegir el Modelo Correcto

Marco de Decisión

Combinaciones Comunes de Modelos

Probar el Rendimiento del Modelo

Pruebas A/B de Modelos

Criterios de Evaluación

Mejores Prácticas

Solución de Problemas del Modelo

Las Respuestas del Agente Son Demasiado Prolijas

El Agente Malinterpreta las Solicitudes

El Agente No Sigue las Instrucciones

Alta Latencia / Respuestas Lentas

El Agente Repite las Mismas Frases

Actualizaciones y Versiones del Modelo

Actualizaciones del Modelo del Proveedor

Controlar Versiones del Modelo

Política de Depreciación

Próximos Pasos