Image
先看图,产出一段简短描述块。
Nodes 导读
OpenClaw 能在回复管道运行前,自动将入站媒体(图片/音频/视频)摘要为简短文本,加速路由和命令解析。原始媒体始终会发给模型。配置核心是 `tools.media` 下的共享模型列表和按能力(image/audio/video)的覆盖参数,注意每个能力默认只处理第一个附件,失败时按顺序回退到下一个模型条目。
先讲这一页到底在解决什么
OpenClaw 能在回复管道运行前,自动将入站媒体(图片/音频/视频)摘要为简短文本,加速路由和命令解析。原始媒体始终会发给模型。配置核心是 `tools.media` 下的共享模型列表和按能力(image/audio/video)的覆盖参数,注意每个能力默认只处理第一个附件,失败时按顺序回退到下一个模型条目。
第一站
官方这里说得很清楚:预理解是附加层,不会替代原媒体本身。
先看图,产出一段简短描述块。
能做转写,并把 transcript 塞进后续流程用。
也能走“先总结再交给主流程”的路子。
就算理解失败,原附件也不会凭空消失,回复流程照样继续。
第二站
这里和音频页很像,主打 ordered fallback。
tools.media.models像公共候选人名单,图片、音频、视频都能共享这排人。
tools.media.image/audio/video像各工种自己的特别规则,可以覆盖 prompt、大小、超时、模型清单。
capabilities这是给候选人贴的工种标签,告诉系统它会看图、听音还是看视频。
如果走 CLI,还能把媒体路径、输出目录这些临时路径塞进命令模板里,像给外援一张作业纸条。
第三站
不是。它只是先给模型准备一张小抄,让后面更好理解媒体内容。