Vai al contenuto principale

Panoramica

Dopo aver selezionato la tua voce, puoi regolare le impostazioni specifiche del fornitore per ottimizzare come suona. Le impostazioni disponibili dipendono dal fornitore di voce che hai selezionato.
Le impostazioni vocali vengono visualizzate dinamicamente in base alla voce selezionata. Le modifiche si applicano immediatamente alle nuove conversazioni.

Impostazioni ElevenLabs

Le voci ElevenLabs supportano i seguenti parametri regolabili:
Finestra Parametri Voce ElevenLabs che mostra cursore Stabilità con valore predefinito 0.7 che controlla stabilità e ripetitività della voce, cursore Aumento Similarità a 0.7 per aumentare similarità con voce originale, cursore Stile a 0.00 per intensità dello stile di parlato, interruttore Usa Aumento Altoparlante abilitato per chiarezza, cursore Velocità a 1.00 per moltiplicatore velocità di riproduzione, menu a discesa Latenza Streaming impostato su 3, e pulsanti Ripristina Tutto, Annulla, Salva Modifiche
Finestra Parametri Voce ElevenLabs che mostra cursore Stabilità con valore predefinito 0.7 che controlla stabilità e ripetitività della voce, cursore Aumento Similarità a 0.7 per aumentare similarità con voce originale, cursore Stile a 0.00 per intensità dello stile di parlato, interruttore Usa Aumento Altoparlante abilitato per chiarezza, cursore Velocità a 1.00 per moltiplicatore velocità di riproduzione, menu a discesa Latenza Streaming impostato su 3, e pulsanti Ripristina Tutto, Annulla, Salva Modifiche

Stabilità

Controlla coerenza ed espressività (intervallo: 0.0-1.0, predefinito itellicoAI: 0.71) Come funziona:
  • Valori bassi (0.3-0.5): Più espressivo e vario, ma meno coerente tra le generazioni
  • Valori medi (0.5-0.7): Espressività e coerenza bilanciate (consigliato)
  • Valori alti (0.7-1.0): Più coerente e prevedibile, ma può sembrare monotono
Punto di partenza consigliato: 0.5-0.7 Usa stabilità inferiore per applicazioni creative dove è desiderata varietà, e stabilità superiore (0.6-0.85) per risposte di servizio clienti coerenti.

Aumento Similarità

Controlla quanto la voce corrisponde al parlante originale (intervallo: 0.0-1.0, predefinito itellicoAI: 0.75) Come funziona:
  • Valori bassi (0.5-0.7): Interpretazione più creativa della voce
  • Valori medi (0.75-0.8): Aderenza bilanciata alla voce originale (consigliato)
  • Valori alti (0.8-1.0): Corrispondenza stretta al carattere vocale originale
Punto di partenza consigliato: 0.75-0.8 Valori più alti aumentano il carico computazionale e possono aggiungere latenza. Sono anche più propensi a riprodurre artefatti se i dati vocali di origine sono rumorosi.

Stile

Controlla variazione stilistica nel ritmo e nell’intonazione (intervallo: 0.0-1.0, predefinito itellicoAI: 0.0) Come funziona:
  • 0.0: Consegna neutra (consigliato)
  • 0.5-1.0: Stile amplificato del parlante originale
Punto di partenza consigliato: 0.0 Valori di stile più alti possono rendere le voci meno stabili e aggiungere latenza. Mantieni questo a 0 per la maggior parte dei casi d’uso.

Aumento Altoparlante

Migliora chiarezza e presenza (booleano, predefinito itellicoAI: abilitato) Come funziona:
  • Abilitato: Aumenta la similarità con il parlante originale, migliorando la chiarezza
  • Disabilitato: Elaborazione standard
Punto di partenza consigliato: Abilitato Aumenta leggermente la latenza; effetto sottile.

Velocità

Controlla la velocità di riproduzione (intervallo: 0.7-1.2, predefinito itellicoAI: 1.0) Valori di velocità:
  • 0.7-0.9: Consegna più lenta e chiara
  • 1.0: Velocità normale (predefinito)
  • 1.1-1.2: Consegna più veloce ed energica
Punto di partenza consigliato: 1.0 Regola in piccoli incrementi (0.05-0.1) e testa con conversazioni complete.

Impostazioni Cartesia

Le voci Cartesia supportano il seguente parametro regolabile:

Velocità di Parlato

Controlla quanto velocemente parla la voce (intervallo: 0.5-2.0, predefinito: 1.0) Valori di velocità di parlato:
  • 0.5-0.8: Consegna più lenta per chiarezza
  • 1.0: Velocità normale (predefinito)
  • 1.2-2.0: Consegna più veloce per efficienza
Punto di partenza consigliato: 1.0 La latenza ultra-bassa di Cartesia rende le regolazioni di velocità reattive. Testa con scenari di conversazione realistici.

Impostazioni Azure Speech

Le voci Azure Speech non supportano impostazioni regolabili tramite l’interfaccia itellicoAI. Azure usa configurazioni vocali predefinite ottimizzate da Microsoft per ogni voce neurale.

Regolare le Impostazioni

Come Modificare le Impostazioni Vocali

  1. Naviga alla scheda Voce nella configurazione del tuo agente
  2. La tua voce attualmente selezionata è visualizzata nella scheda “Voce Corrente” in alto
  3. Fai clic sull’icona ingranaggio accanto alla tua voce corrente (disponibile per voci ElevenLabs e Cartesia)
  4. Si apre un modale con parametri regolabili per la tua voce
  5. Regola cursori o interruttori secondo necessità
  6. Fai clic su Salva Modifiche per applicare

Impostazioni Comuni per Caso d’Uso

ElevenLabs:
  • Stabilità: 0.60-0.85
  • Similarità: 0.75-0.85
  • Stile: 0.0
  • Velocità: 0.95-1.05
Cartesia:
  • Velocità di Parlato: 1.0
Obiettivo: Chiaro, stabile, professionale
ElevenLabs:
  • Stabilità: 0.45-0.70
  • Similarità: 0.70-0.80
  • Stile: 0.0
  • Velocità: 1.05-1.15
Cartesia:
  • Velocità di Parlato: 1.1-1.2
Obiettivo: Energico, fiducioso, coinvolgente
ElevenLabs:
  • Stabilità: 0.60-0.85
  • Similarità: 0.75-0.85
  • Stile: 0.0
  • Velocità: 0.95-1.0
Cartesia:
  • Velocità di Parlato: 0.9-0.95
Obiettivo: Chiaro, paziente, istruttivo
ElevenLabs:
  • Stabilità: 0.70-0.85
  • Similarità: 0.80-0.90
  • Stile: 0.0
  • Velocità: 0.9-1.0
Cartesia:
  • Velocità di Parlato: 0.9
Obiettivo: Calmo, coerente, professionale

Migliori Pratiche

Inizia con valori predefiniti consigliati: I valori predefiniti di Itellico sono punti di partenza ottimizzati. ElevenLabs consiglia stabilità ≈0.5 e similarità ≈0.75-0.8 come riferimenti comuni. Fai piccoli cambiamenti: Le impostazioni vocali sono sensibili. Regola in piccoli incrementi e testa dopo ogni modifica. Testa nel contesto: Usa scenari di conversazione completi (3-5 minuti), non solo campioni di una singola frase. Considera il tuo pubblico: I clienti più anziani spesso preferiscono velocità leggermente più lente. Il pubblico più giovane può preferire leggermente più veloce. Comprendi i compromessi sulla latenza: Aumento di similarità e aumento altoparlante più alti aumentano la latenza. Valori di stile >0 possono anche aggiungere latenza e ridurre stabilità. Documenta le tue impostazioni: Tieni traccia di cosa funziona per ogni combinazione di caso d’uso e voce.

Prossimi Passi