Deixe o lagostim usar a voz dos personagens que você gosta para falar — Prática de clonagem de voz personalizada

Sempre achei que era uma pena que o lagostim só conseguisse digitar. Estudei e descobri que ele pode falar com qualquer voz que você autorizar a usar, e o efeito realmente me surpreendeu quando surgiu. (Funciona com o mesmo princípio da navegação, um pouco mais livre, quem entende, entende, hehe)
Este artigo ensina você a configurar essa funcionalidade do zero.

Condições prévias: OpenClaw 2026.3.x, Python 3.x, ffmpeg já instalado.
O que você precisa prepararUm computador, pode ser Mac, Windows ou Linux.
O mais importante é a Chave API Noiz, que é o núcleo de todo o tutorial, sendo uma plataforma de clonagem de voz AI com bom suporte em chinês. Etapas para obter:

Abra o navegador e acesse developers.noiz.ai/api-keys, registre-se e entre no Dashboard, clique em Criar Chave API, copie e salve, aparecerá apenas uma vez.

Primeiro passo: instalar habilidades de vozPrimeiro, instale as dependências do Python:
pip install noisereduce soundfile requests
Verifique se o ffmpeg está instalado:
ffmpeg -version
Se não tiver, usuários de Mac devem executar brew install ffmpeg, usuários de Ubuntu devem executar apt install ffmpeg.
Depois, configure a chave API do Noiz:
echo 'export NOIZ_API_KEY="suaAPIKey"' >> ~/.bashrc
source ~/.bashrc
Segundo passo: preparar amostras de vozA qualidade da amostra de voz determina diretamente o efeito de clonagem, este passo é o mais crucial.
Grave um áudio de 20-30 segundos com sua própria voz (ou uma voz que você goste), exigências: voz humana pura, sem música de fundo, som claro, volume moderado. Após gravar, converta para o formato WAV nomeado como my_voice.wav.

Se a gravação tiver ruído, use este código para redução de ruído:
import numpy as np
import soundfile as sf
import noisereduce as nr

data, rate = sf.read('my_voice.wav')
if len(data.shape) > 1:
data = np.mean(data, axis=1)

noise_sample = data[:int(rate * 0.3)]
reduced = nr.reduce_noise(y=data, sr=rate, y_noise=noise_sample, prop_decrease=0.8)
sf.write('my_voice_clean.wav', reduced, rate)
print("Redução de ruído concluída")
```
Sugestão de problemas de formatação de código: forneça ao AI para te ajudar a corrigir.
Terceiro passo: testar a clonagem de vozpython3 ~/.openclaw/workspace/skills/tts/scripts/tts.py \
-t "Olá, bem-vindo ao meu stream" \
--ref-audio my_voice_clean.wav \
-o test_output.wav \
--backend noiz
```

Reproduza para ouvir o efeito:
```
# Mac
afplay test_output.wav

# Linux
aplay test_output.wav
Quarto passo: integrar o camarãoAdicione a configuração de saída de voz no config.yaml:
ferramentas:
mídia:
áudio:
habilitado: verdadeiro
tts:
habilitado: verdadeiro
backend: noiz
apiKey: YOUR_NOIZ_API_KEY
refAudio: /path/to/my_voice_clean.wav
```

Depois de configurado, envie para o camarão: 
```
Use a voz para anunciar: hoje o preço do BTC é 83000 dólares, aumento de 24 horas de 2.3%
```

Ele irá gerar um áudio dizendo isso com sua voz, enviado de volta diretamente para o Telegram.

---

Perguntas frequentes

Falha na configuração da chave API: Chave API inválida: verifique se a variável de ambiente está configurada corretamente, execute `echo $NOIZ_API_KEY`, se não houver saída, significa que não está configurada corretamente.

Formato de áudio incorreto: Noiz requer um arquivo WAV com taxa de amostragem de 16000 Hz, profundidade de 16 bits e mono, use este comando para converter:
```
ffmpeg -i input.mp3 -acodec pcm_s16le -ar 16000 -ac 1 output.wav
O efeito de clonagem não está bom: amostra muito curta ou com ruído, grave novamente um áudio limpo de mais de 30 segundos e tente novamente.
Avançado: transmissão ao vivo com anúncios em tempo realCom o Heartbeat, gere automaticamente um resumo de mercado com sua voz a cada 30 minutos, enviado diretamente ao Telegram, e durante a transmissão, reproduza para a audiência.
heartbeat:
  schedules:
    - cron: "*/30    "
      prompt: |
        Pesquisar os preços mais recentes do BTC ETH e dinâmicas importantes,
        gerar um resumo de até 50 palavras no formato de anúncio de voz,
        sintetizar áudio com minha voz e enviar para mim.
#AIBinance