写代码一文不值的时代,什么才值钱?
最近看到冯若航(Pigsty 作者)分享的 AI 编程实践,非常扎实。
他用 Codex 5.3 + Claude Code,每天产出约 4000 行代码,是正常手写的 20 倍。5 天时间,新增了 4 万行 Go 代码。
但他说,关键不是"写了多少代码",而是怎么保证质量。
核心观点
当"写代码"本身不再稀缺,剩下最有价值的东西只有两样:
- 你能提出有品位的设计
- 你能进行可靠的工程验收
糊出一个看起来能用的 Demo 很简单。糊出一个质量可靠的东西,相当难。
方法一:中心法则(设计)
这个名字借自分子生物学:
DNA → RNA → 蛋白质
对应软件工程:
意图 → PRD/Story → 代码
BMAD 工作流
- Brainstorm:头脑风暴,讨论要做什么
- Map:根据头脑风暴产出 PRD,拆解为 EPIC 和 Story
- Act:循环处理这些 Story
为什么重要?
你不能凭感觉写代码。不能这里糊一锤子、那里敲一下。
每一行代码都应该能回溯到它对应的 Story,每个 Story 都能回溯到 PRD,PRD 能回溯到最初的意图。
没有这条信息链,就不是在做工程,而是在做手工艺。
小项目可以东敲敲西敲敲,复杂度一旦上来就完蛋了。
方法二:Agent 对抗(验收)
只用一个 AI 来开发 + Review,质量是不够的。
最佳实践:让不同的 Agent 各司其职,彼此制衡。
具体流程
| 步骤 | Agent | 职责 |
|---|---|---|
| 1 | Claude Code | 创建和开发 Story,快速出初版 |
| 2 | Codex 5.3 | Code Review,提 P0/P1/P2 级别问题 |
| 3 | 人类 | 判断哪些要修,哪些是误报 |
| 4 | Claude | Review Codex 的修改 |
| 5 | 反复 | 来回打铁 3-8 轮,直到共识 |
人类介入的判断
- 真实问题:确认是 Bug,让它修
- 误报:你认为是 Feature 而非 Bug,让它写注释、更新文档,防止以后重复误报
为什么有效?
两个不同架构、不同训练数据的模型,犯同一个错误的概率远低于单个模型。
这不是什么高深理论,就是朴素的交叉验证。
本质上是管理术中的制衡机制——让他们互相找茬,经过充分辩论后达成的共识,大概率是靠谱的。
实际操作示例
冯若航的工作循环:
CreateStory → DevStory → CodeReview → FixThis
不断机械地循环执行这四步。
整个过程他只是"出嘴"确认几个关键问题,没有写过一行具体的代码。
最后做冒烟测试验收,项目就完工了。
工具选择
| 工具 | 特点 | 适合 |
|---|---|---|
| Codex 5.3 xHigh | Code Review 准确率 ~95%,找 Bug 强 | 质量把关 |
| Claude Code | 写码快、风格直接 | 快速出活 |
| GLM | 备用,额度打爆后替补 | 省钱 |
他的评估方法很实在:交叉扫描。
用 Claude 扫到扫不出问题,再换 Codex 扫。Codex 5.3 又揪出了二三十个问题,而 Claude Opus 4.6 表现平平。
这就是最直观的模型能力对比——不看榜单,只看实际效果。
一些实用技巧
- 及时处理技术债:做几个 EPIC 就定期重构
- 降低复杂度:当作首要设计目标
- 及时移除死代码:保持代码库干净
- 充分利用注释:提高 AI 理解的精准程度
- 让 AI 设计测试:自己拉 Docker、设计测试用例、反复测
行业会怎么变?
冯若航的判断很直接:
AI 替代中级程序员,已经没有任何悬念了。
以后可能不会再有"程序员"这个职业,只有"软件工程师"。
区别在于: - 程序员:工作核心是写代码 - 软件工程师:用工程方法解决"写什么、为什么写、怎么验收"
谁受益,谁受损?
| 群体 | 影响 |
|---|---|
| P6/P7 中间层 | 冲击最大 |
| 资深专家 | 超级红利期(至少还有 2 年) |
| 聪明的应届生 | 大有机会(工资低、学习快、无路径依赖) |
未来团队结构
1-3 个核心专家 + 6-7 个实习生 + 人均 2-3 个 AI Agent
One Person Company 会大量涌现。
总结
当写代码不值钱:
- 设计值钱:从意图到代码的信息级联,可追溯、可验证
- 验收值钱:Agent 对抗,交叉验证,人类仲裁
不要只追求"写了多少代码",要追求"代码质量是否可靠"。
时代真的变了。
参考:冯若航原文
相关阅读: - 用 AI Agent 赚钱的 5 种方式 - OpenClaw 六大用例