> ## Documentation Index
> Fetch the complete documentation index at: https://docs.talkturo.ai/llms.txt
> Use this file to discover all available pages before exploring further.

# Stimme des Assistenten konfigurieren

> TTS-Anbieter, Stimmenmodell und Voice-ID wählen; bei Cartesia Emotion; Tempo und Rauschunterdrückung.

Die Stimme prägt, wie Anrufer das Gespräch wahrnehmen — Akzent, Tempo und Ausdruck sollten zur Aufgabe passen. Im Tab **Voice** legen Sie TTS-Anbieter, Modell und Voice-ID fest, die Sprechgeschwindigkeit und den Umgang mit Hintergrundgeräuschen.

## TTS-Anbieter

| Anbieter             | Stärken                                             |
| -------------------- | --------------------------------------------------- |
| **Cartesia**         | Geringe Latenz, Emotionssteuerung, große Bibliothek |
| **ElevenLabs**       | Sehr natürlich, viele Studio-/Klon-Stimmen          |
| **OpenAI**           | Schnell und gleichmäßig, gut für sachliche Calls    |
| **DashScope (Qwen)** | Stark mehrsprachig, ostasiatische Sprachen          |

Beim Wechsel des Anbieters werden **Voice model** und **Voice ID** zurückgesetzt.

## Stimmenmodell und Stimme

Nach dem Anbieter **Voice model** und **Voice** wählen; Filter nach Sprache möglich. Cartesia und ElevenLabs bieten die größten Kataloge.

<Tip>
  Kurz in der Vorschau anhören — im echten Gespräch wirken Stimmen oft anders als isoliert.
</Tip>

## Emotion (nur Cartesia)

Bei Cartesia erscheint **Voice emotion** — Feintuning der Ausdrucksweise:

| Emotion     | Einsatz                                    |
| ----------- | ------------------------------------------ |
| **Default** | Standard neutrale Auslieferung             |
| **Neutral** | Ruhig, professionell — Support, Gesundheit |
| **Excited** | Energie — Outbound-Vertrieb                |
| **Sad**     | Leiser, einfühlsamer                       |
| **Angry**   | Betont — sparsam einsetzen                 |

<Note>
  Emotion nur bei Cartesia als TTS-Anbieter.
</Note>

## Sprechgeschwindigkeit

**Speed** von 0,5× bis 2,0×. Über 1,5× oft schwer verständlich; 0,9–1,1× sind für viele Szenarien angenehm.

## Hintergrund-Ambiente

**Background ambience** — optionales Umgebungsgeräusch:

* **None**
* **Office ambience**
* **Keyboard typing** / **Keyboard typing 2**
* **Hold music**

**Ambience volume** (0–1) relativ zur Stimme. Zu laut = Assistent schlechter zu verstehen.

## Thinking sound

**Thinking sound** — dezentes Geräusch während die KI antwortet generiert (zwischen Ende des Ansprechers und Antwort des Assistenten). Optionen z. B. Tippgeräusche oder keine.

## Rauschunterdrückung

**Noise cancellation** für Audio vom **Anrufer**:

| Modus                             | Wirkung                        |
| --------------------------------- | ------------------------------ |
| **Off**                           | Keine Filterung                |
| **Standard noise cancellation**   | Verkehr, Wind, Klimaanlage     |
| **Background voice cancellation** | Andere Personen im Hintergrund |

Standard oft „bvc“ — empfohlen, um Nebensprechen zu reduzieren.

<Warning>
  Ohne Rauschunterdrückung kann in lauter Umgebung Hintergrund als Sprache erkannt werden — unerwartete Antworten.
</Warning>