GPT-5.5 / Codex agentic parity | Fivey Can Read OpenClaw

先讲这一页到底在解决什么

GPT-5.5 / Codex parity 让模型少停在计划，多给出真实进展

这组 parity 工作修的是实际 agent 体验：不要只说计划就结束，不要被严格工具 schema 绊住，不要索要不存在的 full access，也不要在回放或压缩时悄悄丢掉长任务状态。四个 slice 分别处理行动契约、运行时真实错误、执行正确性和同场景证据报告。

原文共 21 节，先看 Start Here 路径：/help/gpt55-codex-agentic-parity 查看官方原文

为什么要做

以前的问题不是“模型没想法”，而是“想完没有可靠地往前走”

用户说“好，执行吧”时，agent 应该开始做第一步，而不是只复述计划。运行时也应该把权限、认证、网络、回放和压缩状态讲明白，而不是把所有失败压成一句模糊错误。

计划后停住

像小队长说“我要去拿工具”，然后站在原地不动。

schema 摩擦

严格 OpenAI/Codex 工具注册要求更精确，参数为空或根对象不对都可能绊住。

权限假信号

如果 /elevated full 根本不可用，运行时就应该诚实说明，别让模型一直要不存在的钥匙。

长任务状态

暂停、阻塞、遗弃、回放不安全，都要浮上来，而不是消失在普通失败文案里。

四块 PR

像修四段路：行动契约、真实错误、执行正确、证据跑道

这次 parity 计划被拆成四个可 review 的 slice。前三块改 runtime 行为，第四块用同一组场景证明 GPT-5.5 和 Opus 4.6 的表现可以比较。

A

strict-agentic

模型不能只交计划就算完成。该动手时要调用工具或产生真实进展，否则被 steer 后仍不动就明确 blocked。

B

runtime truthfulness

把 auth、scope、HTML 403、proxy、DNS、timeout、full-access 不可用等失败原因说清。

C

execution correctness

修 OpenAI/Codex tool schema 兼容，也让 replay、compaction 和长任务 liveness 更可见。

D

parity harness

同一批场景跑 GPT-5.5 和 Opus 4.6，用报告和 JSON verdict 说话。

场景包

测试不是问“感觉像不像”，而是看五类任务有没有真做成

第一波 parity pack 覆盖短批准后的跟进、模型切换后的工具连续性、源码文档发现报告、图片附件理解，以及压缩/重试里带真实写入的 replay 安全。

approval follow-through

用户批准后，不停在“我会做”，而是在同一 turn 采取第一个具体动作。

model switch continuity

跨模型或 runtime 边界时，工具工作不应突然变成泛泛聊天。

source docs report

能读源码和文档、综合发现，并继续 agentic 地推进，而不是薄薄总结就停。

attachment + replay

图片任务要可行动；带写入的任务在压缩、重试、丢 reply state 时要把 replay 风险说清。

放行标准

能说 parity 前，必须同时有 runtime 绿灯和 harness 证据

GPT-5.5 要被认为达到或超过 Opus 4.6，不能只靠某次演示顺利。它需要通过 parity pack，还要保持 runtime truthfulness 回归套件绿色。

必须避免

计划停住、假完成、错误 /elevated full 建议、静默 replay 或 compaction abandonment。

比较指标

completion rate、unintended-stop rate、valid-tool-call rate、fake-success count。

JSON verdict

qa-agentic-parity-summary.json 是第一波 parity pack 的机器可读最终判断。

CI 噪音

共享或基础 CI 问题不是 parity 结论。要等干净的 merged-runtime 执行再判断。

什么时候启用

`strict-agentic` 适合“下一步很明显，就该动手”的 agent

如果主要 runtime 是 GPT-5.5 或 Codex-family 模型，并且你宁愿看到明确 blocked state，也不想看到“看似帮忙的复述”，就适合启用。

适合

代码任务、短 follow-up、明显下一步、需要工具执行的工作流。

不一定适合

想保留旧的宽松行为、不是 GPT-5-family 模型、或只是测试 prompt 文案。

最后记住

Parity 不是一句宣传语，是“该行动时行动，该失败时诚实失败”的证据链

这组工作让 GPT-5.5 在 OpenClaw 里少停、少猜、少假装成功；如果不能做，也要把原因讲清楚，让人和机器都能继续判断。