Saltar al contenido principal

Descripción General

Después de seleccionar tu voz, puedes ajustar configuraciones específicas del proveedor para afinar cómo suena. Las configuraciones disponibles dependen del proveedor de voz que hayas seleccionado.
Las configuraciones de voz se muestran dinámicamente según tu voz seleccionada. Los cambios se aplican inmediatamente a nuevas conversaciones.

Configuración de ElevenLabs

Las voces de ElevenLabs admiten los siguientes parámetros ajustables:
Diálogo Parámetros de Voz ElevenLabs mostrando deslizador Estabilidad con valor predeterminado 0.7 controlando estabilidad y repetitividad de voz, deslizador Aumento de Similitud a 0.7 para aumentar similitud con voz original, deslizador Estilo a 0.00 para intensidad de estilo de habla, botón alternar Usar Aumento de Altavoz habilitado para claridad, deslizador Velocidad a 1.00 para multiplicador de velocidad de reproducción, menú desplegable Latencia de Transmisión establecido en 3, y botones Restablecer Todo, Cancelar, Guardar Cambios
Diálogo Parámetros de Voz ElevenLabs mostrando deslizador Estabilidad con valor predeterminado 0.7 controlando estabilidad y repetitividad de voz, deslizador Aumento de Similitud a 0.7 para aumentar similitud con voz original, deslizador Estilo a 0.00 para intensidad de estilo de habla, botón alternar Usar Aumento de Altavoz habilitado para claridad, deslizador Velocidad a 1.00 para multiplicador de velocidad de reproducción, menú desplegable Latencia de Transmisión establecido en 3, y botones Restablecer Todo, Cancelar, Guardar Cambios

Estabilidad

Controla consistencia y expresividad (rango: 0.0-1.0, predeterminado itellicoAI: 0.71) Cómo funciona:
  • Valores bajos (0.3-0.5): Más expresivo y variado, pero menos consistente entre generaciones
  • Valores medios (0.5-0.7): Expresividad y consistencia equilibradas (recomendado)
  • Valores altos (0.7-1.0): Más consistente y predecible, pero puede sonar monótono
Punto de partida recomendado: 0.5-0.7 Usa estabilidad más baja para aplicaciones creativas donde se desea variedad, y estabilidad más alta (0.6-0.85) para respuestas consistentes de servicio al cliente.

Aumento de Similitud

Controla qué tan cerca coincide la voz con el hablante original (rango: 0.0-1.0, predeterminado itellicoAI: 0.75) Cómo funciona:
  • Valores bajos (0.5-0.7): Interpretación más creativa de la voz
  • Valores medios (0.75-0.8): Adherencia equilibrada a la voz original (recomendado)
  • Valores altos (0.8-1.0): Coincidencia estricta con el carácter de voz original
Punto de partida recomendado: 0.75-0.8 Valores más altos aumentan la carga computacional y pueden agregar latencia. También son más propensos a reproducir artefactos si los datos de voz de origen son ruidosos.

Estilo

Controla variación estilística en ritmo y entonación (rango: 0.0-1.0, predeterminado itellicoAI: 0.0) Cómo funciona:
  • 0.0: Entrega neutral (recomendado)
  • 0.5-1.0: Estilo amplificado del hablante original
Punto de partida recomendado: 0.0 Valores de estilo más altos pueden hacer que las voces sean menos estables y agregar latencia. Mantén esto en 0 para la mayoría de los casos de uso.

Aumento de Altavoz

Mejora claridad y presencia (booleano, predeterminado itellicoAI: habilitado) Cómo funciona:
  • Habilitado: Aumenta similitud con el hablante original, mejorando claridad
  • Deshabilitado: Procesamiento estándar
Punto de partida recomendado: Habilitado Aumenta ligeramente la latencia; efecto sutil.

Velocidad

Controla velocidad de reproducción (rango: 0.7-1.2, predeterminado itellicoAI: 1.0) Valores de velocidad:
  • 0.7-0.9: Entrega más lenta y clara
  • 1.0: Velocidad normal (predeterminado)
  • 1.1-1.2: Entrega más rápida y enérgica
Punto de partida recomendado: 1.0 Ajusta en pequeños incrementos (0.05-0.1) y prueba con conversaciones completas.

Configuración de Cartesia

Las voces de Cartesia admiten el siguiente parámetro ajustable:

Velocidad de Habla

Controla qué tan rápido habla la voz (rango: 0.5-2.0, predeterminado: 1.0) Valores de velocidad de habla:
  • 0.5-0.8: Entrega más lenta para claridad
  • 1.0: Velocidad normal (predeterminado)
  • 1.2-2.0: Entrega más rápida para eficiencia
Punto de partida recomendado: 1.0 La latencia ultra-baja de Cartesia hace que los ajustes de velocidad se sientan responsivos. Prueba con escenarios de conversación realistas.

Configuración de Azure Speech

Las voces de Azure Speech no admiten configuraciones ajustables a través de la interfaz de itellicoAI. Azure usa configuraciones de voz predeterminadas optimizadas por Microsoft para cada voz neural.

Ajustar Configuración

Cómo Cambiar Configuración de Voz

  1. Navega a la pestaña Voz en la configuración de tu agente
  2. Tu voz actualmente seleccionada se muestra en la tarjeta “Voz Actual” en la parte superior
  3. Haz clic en el icono de engranaje junto a tu voz actual (disponible para voces ElevenLabs y Cartesia)
  4. Se abre un modal con parámetros ajustables para tu voz
  5. Ajusta deslizadores o botones alternos según sea necesario
  6. Haz clic en Guardar Cambios para aplicar

Configuraciones Comunes por Caso de Uso

ElevenLabs:
  • Estabilidad: 0.60-0.85
  • Similitud: 0.75-0.85
  • Estilo: 0.0
  • Velocidad: 0.95-1.05
Cartesia:
  • Velocidad de Habla: 1.0
Objetivo: Claro, estable, profesional
ElevenLabs:
  • Estabilidad: 0.45-0.70
  • Similitud: 0.70-0.80
  • Estilo: 0.0
  • Velocidad: 1.05-1.15
Cartesia:
  • Velocidad de Habla: 1.1-1.2
Objetivo: Enérgico, confiado, atractivo
ElevenLabs:
  • Estabilidad: 0.60-0.85
  • Similitud: 0.75-0.85
  • Estilo: 0.0
  • Velocidad: 0.95-1.0
Cartesia:
  • Velocidad de Habla: 0.9-0.95
Objetivo: Claro, paciente, instructivo
ElevenLabs:
  • Estabilidad: 0.70-0.85
  • Similitud: 0.80-0.90
  • Estilo: 0.0
  • Velocidad: 0.9-1.0
Cartesia:
  • Velocidad de Habla: 0.9
Objetivo: Calmado, consistente, profesional

Mejores Prácticas

Comienza con valores predeterminados recomendados: Los valores predeterminados de Itellico son puntos de partida optimizados. ElevenLabs recomienda estabilidad ≈0.5 y similitud ≈0.75-0.8 como referencias comunes. Haz pequeños cambios: Las configuraciones de voz son sensibles. Ajusta en pequeños incrementos y prueba después de cada cambio. Prueba en contexto: Usa escenarios de conversación completos (3-5 minutos), no solo muestras de una oración. Considera tu audiencia: Los clientes mayores a menudo prefieren velocidades ligeramente más lentas. Las audiencias más jóvenes pueden preferir ligeramente más rápido. Comprende las compensaciones de latencia: Aumento de similitud y aumento de altavoz más altos aumentan la latencia. Valores de estilo >0 también pueden agregar latencia y reducir estabilidad. Documenta tu configuración: Mantén un registro de lo que funciona para cada combinación de caso de uso y voz.

Próximos Pasos