Sempre achei que era uma pena que o lagostim só conseguisse digitar. Estudei e descobri que ele pode falar com qualquer voz que você autorizar a usar, e o efeito realmente me surpreendeu quando surgiu. (Funciona com o mesmo princípio da navegação, um pouco mais livre, quem entende, entende, hehe)

Este artigo ensina você a configurar essa funcionalidade do zero.


Condições prévias: OpenClaw 2026.3.x, Python 3.x, ffmpeg já instalado.

O que você precisa preparar

Um computador, pode ser Mac, Windows ou Linux.

O mais importante é a Chave API Noiz, que é o núcleo de todo o tutorial, sendo uma plataforma de clonagem de voz AI com bom suporte em chinês. Etapas para obter:


Abra o navegador e acesse developers.noiz.ai/api-keys, registre-se e entre no Dashboard, clique em Criar Chave API, copie e salve, aparecerá apenas uma vez.


Primeiro passo: instalar habilidades de voz

Primeiro, instale as dependências do Python:

pip install noisereduce soundfile requests

Verifique se o ffmpeg está instalado:

ffmpeg -version

Se não tiver, usuários de Mac devem executar brew install ffmpeg, usuários de Ubuntu devem executar apt install ffmpeg.

Depois, configure a chave API do Noiz:

echo 'export NOIZ_API_KEY="suaAPIKey"' >> ~/.bashrc
source ~/.bashrc

Segundo passo: preparar amostras de voz

A qualidade da amostra de voz determina diretamente o efeito de clonagem, este passo é o mais crucial.

Grave um áudio de 20-30 segundos com sua própria voz (ou uma voz que você goste), exigências: voz humana pura, sem música de fundo, som claro, volume moderado. Após gravar, converta para o formato WAV nomeado como my_voice.wav.


Se a gravação tiver ruído, use este código para redução de ruído:

import numpy as np
import soundfile as sf
import noisereduce as nr

data, rate = sf.read('my_voice.wav')
if len(data.shape) > 1:
data = np.mean(data, axis=1)

noise_sample = data[:int(rate * 0.3)]
reduced = nr.reduce_noise(y=data, sr=rate, y_noise=noise_sample, prop_decrease=0.8)
sf.write('my_voice_clean.wav', reduced, rate)
print("Redução de ruído concluída")
```

Sugestão de problemas de formatação de código: forneça ao AI para te ajudar a corrigir.

Terceiro passo: testar a clonagem de voz

python3 ~/.openclaw/workspace/skills/tts/scripts/tts.py \
-t "Olá, bem-vindo ao meu stream" \
--ref-audio my_voice_clean.wav \
-o test_output.wav \
--backend noiz
```

Reproduza para ouvir o efeito:
```
# Mac
afplay test_output.wav

# Linux
aplay test_output.wav

Quarto passo: integrar o camarão

Adicione a configuração de saída de voz no config.yaml:

ferramentas:
mídia:
áudio:
habilitado: verdadeiro
tts:
habilitado: verdadeiro
backend: noiz
apiKey: YOUR_NOIZ_API_KEY
refAudio: /path/to/my_voice_clean.wav
```

Depois de configurado, envie para o camarão:
```
Use a voz para anunciar: hoje o preço do BTC é 83000 dólares, aumento de 24 horas de 2.3%
```

Ele irá gerar um áudio dizendo isso com sua voz, enviado de volta diretamente para o Telegram.

---

Perguntas frequentes

Falha na configuração da chave API: Chave API inválida: verifique se a variável de ambiente está configurada corretamente, execute `echo $NOIZ_API_KEY`, se não houver saída, significa que não está configurada corretamente.

Formato de áudio incorreto: Noiz requer um arquivo WAV com taxa de amostragem de 16000 Hz, profundidade de 16 bits e mono, use este comando para converter:
```
ffmpeg -i input.mp3 -acodec pcm_s16le -ar 16000 -ac 1 output.wav

O efeito de clonagem não está bom: amostra muito curta ou com ruído, grave novamente um áudio limpo de mais de 30 segundos e tente novamente.

Avançado: transmissão ao vivo com anúncios em tempo real

Com o Heartbeat, gere automaticamente um resumo de mercado com sua voz a cada 30 minutos, enviado diretamente ao Telegram, e durante a transmissão, reproduza para a audiência.

heartbeat:

schedules:

- cron: "*/30 "

prompt: |

Pesquisar os preços mais recentes do BTC ETH e dinâmicas importantes,

gerar um resumo de até 50 palavras no formato de anúncio de voz,

sintetizar áudio com minha voz e enviar para mim.

#AIBinance