写代码一文不值的时代，什么才值钱？

2026-02-17 · 6 分钟阅读 · AI, 编程, 方法论, Codex, Claude

最近看到冯若航（Pigsty 作者）分享的 AI 编程实践，非常扎实。

他用 Codex 5.3 + Claude Code，每天产出约 4000 行代码，是正常手写的 20 倍。5 天时间，新增了 4 万行 Go 代码。

但他说，关键不是"写了多少代码"，而是怎么保证质量。

核心观点

当"写代码"本身不再稀缺，剩下最有价值的东西只有两样：

你能提出有品位的设计
你能进行可靠的工程验收

糊出一个看起来能用的 Demo 很简单。糊出一个质量可靠的东西，相当难。

方法一：中心法则（设计）

这个名字借自分子生物学：

DNA → RNA → 蛋白质

对应软件工程：

意图 → PRD/Story → 代码

BMAD 工作流

Brainstorm：头脑风暴，讨论要做什么
Map：根据头脑风暴产出 PRD，拆解为 EPIC 和 Story
Act：循环处理这些 Story

为什么重要？

你不能凭感觉写代码。不能这里糊一锤子、那里敲一下。

每一行代码都应该能回溯到它对应的 Story，每个 Story 都能回溯到 PRD，PRD 能回溯到最初的意图。

没有这条信息链，就不是在做工程，而是在做手工艺。

小项目可以东敲敲西敲敲，复杂度一旦上来就完蛋了。

方法二：Agent 对抗（验收）

只用一个 AI 来开发 + Review，质量是不够的。

最佳实践：让不同的 Agent 各司其职，彼此制衡。

具体流程

步骤	Agent	职责
1	Claude Code	创建和开发 Story，快速出初版
2	Codex 5.3	Code Review，提 P0/P1/P2 级别问题
3	人类	判断哪些要修，哪些是误报
4	Claude	Review Codex 的修改
5	反复	来回打铁 3-8 轮，直到共识

人类介入的判断

真实问题：确认是 Bug，让它修
误报：你认为是 Feature 而非 Bug，让它写注释、更新文档，防止以后重复误报

为什么有效？

两个不同架构、不同训练数据的模型，犯同一个错误的概率远低于单个模型。

这不是什么高深理论，就是朴素的交叉验证。

本质上是管理术中的制衡机制——让他们互相找茬，经过充分辩论后达成的共识，大概率是靠谱的。

实际操作示例

冯若航的工作循环：

CreateStory → DevStory → CodeReview → FixThis

不断机械地循环执行这四步。

整个过程他只是"出嘴"确认几个关键问题，没有写过一行具体的代码。

最后做冒烟测试验收，项目就完工了。

工具选择

工具	特点	适合
Codex 5.3 xHigh	Code Review 准确率 ~95%，找 Bug 强	质量把关
Claude Code	写码快、风格直接	快速出活
GLM	备用，额度打爆后替补	省钱

他的评估方法很实在：交叉扫描。

用 Claude 扫到扫不出问题，再换 Codex 扫。Codex 5.3 又揪出了二三十个问题，而 Claude Opus 4.6 表现平平。

这就是最直观的模型能力对比——不看榜单，只看实际效果。

一些实用技巧

及时处理技术债：做几个 EPIC 就定期重构
降低复杂度：当作首要设计目标
及时移除死代码：保持代码库干净
充分利用注释：提高 AI 理解的精准程度
让 AI 设计测试：自己拉 Docker、设计测试用例、反复测

行业会怎么变？

冯若航的判断很直接：

AI 替代中级程序员，已经没有任何悬念了。

以后可能不会再有"程序员"这个职业，只有"软件工程师"。

区别在于： - 程序员：工作核心是写代码 - 软件工程师：用工程方法解决"写什么、为什么写、怎么验收"

谁受益，谁受损？

群体	影响
P6/P7 中间层	冲击最大
资深专家	超级红利期（至少还有 2 年）
聪明的应届生	大有机会（工资低、学习快、无路径依赖）

未来团队结构

1-3 个核心专家 + 6-7 个实习生 + 人均 2-3 个 AI Agent

One Person Company 会大量涌现。

总结

当写代码不值钱：

设计值钱：从意图到代码的信息级联，可追溯、可验证
验收值钱：Agent 对抗，交叉验证，人类仲裁

不要只追求"写了多少代码"，要追求"代码质量是否可靠"。

时代真的变了。

参考：冯若航原文

相关阅读： - 用 AI Agent 赚钱的 5 种方式 - OpenClaw 六大用例