Saltar para o conteúdo principal

Visão Geral

Após selecionar sua voz, você pode ajustar configurações específicas do provedor para ajustar finamente como ela soa. As configurações disponíveis dependem do provedor de voz que você selecionou.
As configurações de voz são exibidas dinamicamente com base na sua voz selecionada. As alterações se aplicam imediatamente a novas conversas.

Configurações ElevenLabs

As vozes ElevenLabs suportam os seguintes parâmetros ajustáveis:
Diálogo Parâmetros de Voz ElevenLabs mostrando controle deslizante Estabilidade com valor padrão 0.7 controlando estabilidade e repetitividade da voz, controle deslizante Aumento de Similaridade a 0.7 para aumentar similaridade com voz original, controle deslizante Estilo a 0.00 para intensidade do estilo de fala, botão alternar Usar Aumento de Alto-falante habilitado para clareza, controle deslizante Velocidade a 1.00 para multiplicador de velocidade de reprodução, menu suspenso Latência de Streaming definido como 3, e botões Redefinir Tudo, Cancelar, Salvar Alterações
Diálogo Parâmetros de Voz ElevenLabs mostrando controle deslizante Estabilidade com valor padrão 0.7 controlando estabilidade e repetitividade da voz, controle deslizante Aumento de Similaridade a 0.7 para aumentar similaridade com voz original, controle deslizante Estilo a 0.00 para intensidade do estilo de fala, botão alternar Usar Aumento de Alto-falante habilitado para clareza, controle deslizante Velocidade a 1.00 para multiplicador de velocidade de reprodução, menu suspenso Latência de Streaming definido como 3, e botões Redefinir Tudo, Cancelar, Salvar Alterações

Estabilidade

Controla consistência e expressividade (intervalo: 0.0-1.0, padrão itellicoAI: 0.71) Como funciona:
  • Valores baixos (0.3-0.5): Mais expressivo e variado, mas menos consistente entre gerações
  • Valores médios (0.5-0.7): Expressividade e consistência equilibradas (recomendado)
  • Valores altos (0.7-1.0): Mais consistente e previsível, mas pode soar monótono
Ponto de partida recomendado: 0.5-0.7 Use estabilidade mais baixa para aplicações criativas onde variedade é desejada, e estabilidade mais alta (0.6-0.85) para respostas consistentes de atendimento ao cliente.

Aumento de Similaridade

Controla quão próximo a voz corresponde ao falante original (intervalo: 0.0-1.0, padrão itellicoAI: 0.75) Como funciona:
  • Valores baixos (0.5-0.7): Interpretação mais criativa da voz
  • Valores médios (0.75-0.8): Aderência equilibrada à voz original (recomendado)
  • Valores altos (0.8-1.0): Correspondência estrita ao caráter vocal original
Ponto de partida recomendado: 0.75-0.8 Valores mais altos aumentam a carga computacional e podem adicionar latência. Também são mais propensos a reproduzir artefatos se os dados de voz de origem forem ruidosos.

Estilo

Controla variação estilística no ritmo e entonação (intervalo: 0.0-1.0, padrão itellicoAI: 0.0) Como funciona:
  • 0.0: Entrega neutra (recomendado)
  • 0.5-1.0: Estilo amplificado do falante original
Ponto de partida recomendado: 0.0 Valores de estilo mais altos podem tornar as vozes menos estáveis e adicionar latência. Mantenha isso em 0 para a maioria dos casos de uso.

Aumento de Alto-falante

Melhora clareza e presença (booleano, padrão itellicoAI: habilitado) Como funciona:
  • Habilitado: Aumenta a similaridade com o falante original, melhorando a clareza
  • Desabilitado: Processamento padrão
Ponto de partida recomendado: Habilitado Aumenta ligeiramente a latência; efeito sutil.

Velocidade

Controla velocidade de reprodução (intervalo: 0.7-1.2, padrão itellicoAI: 1.0) Valores de velocidade:
  • 0.7-0.9: Entrega mais lenta e clara
  • 1.0: Velocidade normal (padrão)
  • 1.1-1.2: Entrega mais rápida e enérgica
Ponto de partida recomendado: 1.0 Ajuste em pequenos incrementos (0.05-0.1) e teste com conversas completas.

Configurações Cartesia

As vozes Cartesia suportam o seguinte parâmetro ajustável:

Taxa de Fala

Controla quão rápido a voz fala (intervalo: 0.5-2.0, padrão: 1.0) Valores de taxa de fala:
  • 0.5-0.8: Entrega mais lenta para clareza
  • 1.0: Velocidade normal (padrão)
  • 1.2-2.0: Entrega mais rápida para eficiência
Ponto de partida recomendado: 1.0 A latência ultra-baixa da Cartesia torna os ajustes de velocidade responsivos. Teste com cenários de conversa realistas.

Configurações Azure Speech

As vozes Azure Speech não suportam configurações ajustáveis através da interface itellicoAI. Azure usa configurações de voz padrão otimizadas pela Microsoft para cada voz neural.

Ajustar Configurações

Como Alterar Configurações de Voz

  1. Navegue até a aba Voz na configuração do seu agente
  2. Sua voz atualmente selecionada é exibida no cartão “Voz Atual” no topo
  3. Clique no ícone de engrenagem ao lado da sua voz atual (disponível para vozes ElevenLabs e Cartesia)
  4. Um modal abre com parâmetros ajustáveis para sua voz
  5. Ajuste controles deslizantes ou botões alternos conforme necessário
  6. Clique em Salvar Alterações para aplicar

Configurações Comuns por Caso de Uso

ElevenLabs:
  • Estabilidade: 0.60-0.85
  • Similaridade: 0.75-0.85
  • Estilo: 0.0
  • Velocidade: 0.95-1.05
Cartesia:
  • Taxa de Fala: 1.0
Objetivo: Claro, estável, profissional
ElevenLabs:
  • Estabilidade: 0.45-0.70
  • Similaridade: 0.70-0.80
  • Estilo: 0.0
  • Velocidade: 1.05-1.15
Cartesia:
  • Taxa de Fala: 1.1-1.2
Objetivo: Enérgico, confiante, envolvente
ElevenLabs:
  • Estabilidade: 0.60-0.85
  • Similaridade: 0.75-0.85
  • Estilo: 0.0
  • Velocidade: 0.95-1.0
Cartesia:
  • Taxa de Fala: 0.9-0.95
Objetivo: Claro, paciente, instrutivo
ElevenLabs:
  • Estabilidade: 0.70-0.85
  • Similaridade: 0.80-0.90
  • Estilo: 0.0
  • Velocidade: 0.9-1.0
Cartesia:
  • Taxa de Fala: 0.9
Objetivo: Calmo, consistente, profissional

Melhores Práticas

Comece com valores padrão recomendados: Os padrões do Itellico são pontos de partida otimizados. ElevenLabs recomenda estabilidade ≈0.5 e similaridade ≈0.75-0.8 como referências comuns. Faça pequenas mudanças: As configurações de voz são sensíveis. Ajuste em pequenos incrementos e teste após cada mudança. Teste em contexto: Use cenários de conversa completos (3-5 minutos), não apenas amostras de uma frase. Considere seu público: Clientes mais velhos geralmente preferem velocidades ligeiramente mais lentas. Públicos mais jovens podem preferir ligeiramente mais rápido. Entenda as compensações de latência: Aumento de similaridade e aumento de alto-falante mais altos aumentam a latência. Valores de estilo >0 também podem adicionar latência e reduzir estabilidade. Documente suas configurações: Mantenha registro do que funciona para cada combinação de caso de uso e voz.

Próximos Passos