Tools 导读

媒体能力:生成、理解与语音输出,全靠你配好的 Provider

OpenClaw 能生成图片、视频、音乐,也能理解收到的图片、音频、视频,还能用 TTS 把回复读出来。所有媒体工具默认不出现,只有当你配置了至少一个对应的 Provider 后,Agent 才会在对话中自动启用它们。视频和音乐生成是异步的,提交后 Agent 会继续处理其他消息,等 Provider 完成后再把结果发回频道。

先讲这一页到底在解决什么

媒体能力:生成、理解与语音输出,全靠你配好的 Provider

OpenClaw 能生成图片、视频、音乐,也能理解收到的图片、音频、视频,还能用 TTS 把回复读出来。所有媒体工具默认不出现,只有当你配置了至少一个对应的 Provider 后,Agent 才会在对话中自动启用它们。视频和音乐生成是异步的,提交后 Agent 会继续处理其他消息,等 Provider 完成后再把结果发回频道。

原文共 7 节,先看 Start Here 路径:/tools/media-overview 查看官方原文

第一站

🧭 先认出四个工具家族

媒体能力不是一坨,它分得很清楚。

🖼

image_generate

画图和改图。

🎬

video_generate

做视频。

🎵

music_generate

做音乐。

🔊

tts

把回复念出来。

第二站

👀 还有一类能力,是自动帮你“看懂”

图片、音频、视频进来后,代理也能做理解和总结。

Image understanding

像看图说话。

Audio understanding

像把音频翻成字再理解。

Video understanding

像看完视频再给你讲一遍重点。

CLI fallback

工具不足时还会用 CLI 路线兜底。

第三站

📦 Provider 和 Tool 的关系,像“柜台”和“按钮”

Provider 是底层柜台,tool 是你在前台真正按的按钮。

Provider

负责真正干活的后端能力。

Tool

负责把能力暴露给 agent 用。

自动出现

只要背后有 provider,前台工具就会亮起来。

最后总结

🎈 把 Media Overview 这页压成一句最好记的话

这页是媒体总菜单:先分清图、视频、音乐、TTS 和理解能力,再去看具体工具页。