Nodes 导读

媒体理解：在回复前自动摘要图片、音频、视频

OpenClaw 能在回复管道运行前，自动将入站媒体（图片/音频/视频）摘要为简短文本，加速路由和命令解析。原始媒体始终会发给模型。配置核心是 `tools.media` 下的共享模型列表和按能力（image/audio/video）的覆盖参数，注意每个能力默认只处理第一个附件，失败时按顺序回退到下一个模型条目。

先讲这一页到底在解决什么

媒体理解：在回复前自动摘要图片、音频、视频

原文共 17 节，先看 Start Here 路径：/nodes/media-understanding 查看官方原文

第一站

🧃 它做的是“先榨一小杯摘要汁”，不是把原图原音扔掉

官方这里说得很清楚：预理解是附加层，不会替代原媒体本身。

🖼️

Image

先看图，产出一段简短描述块。

🎤

Audio

能做转写，并把 transcript 塞进后续流程用。

🎬

Video

也能走“先总结再交给主流程”的路子。

📎

原附件保留

就算理解失败，原附件也不会凭空消失，回复流程照样继续。

第二站

🪜 模型选择也是排队制：先看能力和大小，再一个个试

这里和音频页很像，主打 ordered fallback。

tools.media.models

像公共候选人名单，图片、音频、视频都能共享这排人。

tools.media.image/audio/video

像各工种自己的特别规则，可以覆盖 prompt、大小、超时、模型清单。

capabilities

这是给候选人贴的工种标签，告诉系统它会看图、听音还是看视频。

CLI templates

如果走 CLI，还能把媒体路径、输出目录这些临时路径塞进命令模板里，像给外援一张作业纸条。

第三站