enabled: true
像把音频处理台的电源拨到开。
Providers 导读
把 Deepgram 的 API Key 配进环境变量,再在 tools.media.audio 里把 provider 设为 deepgram,语音消息就能自动转成文字注入对话。注意这是非流式转录,整段音频上传完才出结果,不是实时转写。
先讲这一页到底在解决什么
把 Deepgram 的 API Key 配进环境变量,再在 tools.media.audio 里把 provider 设为 deepgram,语音消息就能自动转成文字注入对话。注意这是非流式转录,整段音频上传完才出结果,不是实时转写。
第一步
没有 DEEPGRAM_API_KEY,OpenClaw 就算收到音频,也不知道该把录音带交给谁。
DEEPGRAM_API_KEY=dg_...像给听写员发工牌。工牌在,后面上传音频时它才肯接活。
如果 Gateway 在后台值班,这把钥匙也得放到后台摸得到的地方,比如 ~/.openclaw/.env。
先发工牌,再谈转写质量。
第二步
tools.media.audio 配置,其实是在打开“音频处理台”看起来像一大坨 JSON,翻成人话只是三件事:开机、选听写员、选听写模型。
enabled: true像把音频处理台的电源拨到开。
provider: deepgram像告诉前台:“今天负责听写的是 Deepgram。”
model: nova-3像给听写员指定一支常用笔,官方默认就用这支。
{{Transcript}} + [Audio]意思是转写出来的字,会被塞进后面的回复管道,不会凭空消失。
第三步
这些开关不是玄学,它们就是整理文字的不同小帮手。
language像提前告诉它“这段大概是什么语言”,这样它更容易少听错。
detect_language像让它自己先猜这人到底在讲哪种语言。
punctuate像让它补逗号句号,不要把整段话写成一条长长面条。
smart_format像让它顺手把一些数字、时间、格式整理得更像人会写的样子。
最后总结
Deepgram 是 OpenClaw 的语音听写员。你给它工牌、打开音频处理台、选好模型,它就会把收到的声音先翻成字,再交给后面的聊天流程继续处理。
如果你现在看的不是语音,而是要选聊天主模型,就回到普通 provider 页去选大脑,不要把听写员和大脑混成一件事。