strict-agentic
模型不能只交计划就算完成。该动手时要调用工具或产生真实进展,否则被 steer 后仍不动就明确 blocked。
Help 导读
这组 parity 工作修的是实际 agent 体验:不要只说计划就结束,不要被严格工具 schema 绊住,不要索要不存在的 full access,也不要在回放或压缩时悄悄丢掉长任务状态。四个 slice 分别处理行动契约、运行时真实错误、执行正确性和同场景证据报告。
先讲这一页到底在解决什么
这组 parity 工作修的是实际 agent 体验:不要只说计划就结束,不要被严格工具 schema 绊住,不要索要不存在的 full access,也不要在回放或压缩时悄悄丢掉长任务状态。四个 slice 分别处理行动契约、运行时真实错误、执行正确性和同场景证据报告。
为什么要做
用户说“好,执行吧”时,agent 应该开始做第一步,而不是只复述计划。运行时也应该把权限、认证、网络、回放和压缩状态讲明白,而不是把所有失败压成一句模糊错误。
像小队长说“我要去拿工具”,然后站在原地不动。
严格 OpenAI/Codex 工具注册要求更精确,参数为空或根对象不对都可能绊住。
如果 /elevated full 根本不可用,运行时就应该诚实说明,别让模型一直要不存在的钥匙。
暂停、阻塞、遗弃、回放不安全,都要浮上来,而不是消失在普通失败文案里。
四块 PR
这次 parity 计划被拆成四个可 review 的 slice。前三块改 runtime 行为,第四块用同一组场景证明 GPT-5.5 和 Opus 4.6 的表现可以比较。
模型不能只交计划就算完成。该动手时要调用工具或产生真实进展,否则被 steer 后仍不动就明确 blocked。
把 auth、scope、HTML 403、proxy、DNS、timeout、full-access 不可用等失败原因说清。
修 OpenAI/Codex tool schema 兼容,也让 replay、compaction 和长任务 liveness 更可见。
同一批场景跑 GPT-5.5 和 Opus 4.6,用报告和 JSON verdict 说话。
场景包
第一波 parity pack 覆盖短批准后的跟进、模型切换后的工具连续性、源码文档发现报告、图片附件理解,以及压缩/重试里带真实写入的 replay 安全。
用户批准后,不停在“我会做”,而是在同一 turn 采取第一个具体动作。
跨模型或 runtime 边界时,工具工作不应突然变成泛泛聊天。
能读源码和文档、综合发现,并继续 agentic 地推进,而不是薄薄总结就停。
图片任务要可行动;带写入的任务在压缩、重试、丢 reply state 时要把 replay 风险说清。
放行标准
GPT-5.5 要被认为达到或超过 Opus 4.6,不能只靠某次演示顺利。它需要通过 parity pack,还要保持 runtime truthfulness 回归套件绿色。
计划停住、假完成、错误 /elevated full 建议、静默 replay 或 compaction abandonment。
completion rate、unintended-stop rate、valid-tool-call rate、fake-success count。
qa-agentic-parity-summary.json 是第一波 parity pack 的机器可读最终判断。
共享或基础 CI 问题不是 parity 结论。要等干净的 merged-runtime 执行再判断。
什么时候启用
strict-agentic 适合“下一步很明显,就该动手”的 agent如果主要 runtime 是 GPT-5.5 或 Codex-family 模型,并且你宁愿看到明确 blocked state,也不想看到“看似帮忙的复述”,就适合启用。
代码任务、短 follow-up、明显下一步、需要工具执行的工作流。
想保留旧的宽松行为、不是 GPT-5-family 模型、或只是测试 prompt 文案。
最后记住
这组工作让 GPT-5.5 在 OpenClaw 里少停、少猜、少假装成功;如果不能做,也要把原因讲清楚,让人和机器都能继续判断。