🛠️ IndieKit

写代码一文不值的时代,什么才值钱?

2026-02-17 · 6 分钟阅读 · AI, 编程, 方法论, Codex, Claude

最近看到冯若航(Pigsty 作者)分享的 AI 编程实践,非常扎实。

他用 Codex 5.3 + Claude Code,每天产出约 4000 行代码,是正常手写的 20 倍。5 天时间,新增了 4 万行 Go 代码。

但他说,关键不是"写了多少代码",而是怎么保证质量


核心观点

当"写代码"本身不再稀缺,剩下最有价值的东西只有两样:

  1. 你能提出有品位的设计
  2. 你能进行可靠的工程验收

糊出一个看起来能用的 Demo 很简单。糊出一个质量可靠的东西,相当难。


方法一:中心法则(设计)

这个名字借自分子生物学:

DNA → RNA → 蛋白质

对应软件工程:

意图 → PRD/Story → 代码

BMAD 工作流

为什么重要?

你不能凭感觉写代码。不能这里糊一锤子、那里敲一下。

每一行代码都应该能回溯到它对应的 Story,每个 Story 都能回溯到 PRD,PRD 能回溯到最初的意图。

没有这条信息链,就不是在做工程,而是在做手工艺。

小项目可以东敲敲西敲敲,复杂度一旦上来就完蛋了。


方法二:Agent 对抗(验收)

只用一个 AI 来开发 + Review,质量是不够的。

最佳实践:让不同的 Agent 各司其职,彼此制衡。

具体流程

步骤 Agent 职责
1 Claude Code 创建和开发 Story,快速出初版
2 Codex 5.3 Code Review,提 P0/P1/P2 级别问题
3 人类 判断哪些要修,哪些是误报
4 Claude Review Codex 的修改
5 反复 来回打铁 3-8 轮,直到共识

人类介入的判断

为什么有效?

两个不同架构、不同训练数据的模型,犯同一个错误的概率远低于单个模型。

这不是什么高深理论,就是朴素的交叉验证

本质上是管理术中的制衡机制——让他们互相找茬,经过充分辩论后达成的共识,大概率是靠谱的。


实际操作示例

冯若航的工作循环:

CreateStory → DevStory → CodeReview → FixThis

不断机械地循环执行这四步。

整个过程他只是"出嘴"确认几个关键问题,没有写过一行具体的代码。

最后做冒烟测试验收,项目就完工了。


工具选择

工具 特点 适合
Codex 5.3 xHigh Code Review 准确率 ~95%,找 Bug 强 质量把关
Claude Code 写码快、风格直接 快速出活
GLM 备用,额度打爆后替补 省钱

他的评估方法很实在:交叉扫描

用 Claude 扫到扫不出问题,再换 Codex 扫。Codex 5.3 又揪出了二三十个问题,而 Claude Opus 4.6 表现平平。

这就是最直观的模型能力对比——不看榜单,只看实际效果。


一些实用技巧

  1. 及时处理技术债:做几个 EPIC 就定期重构
  2. 降低复杂度:当作首要设计目标
  3. 及时移除死代码:保持代码库干净
  4. 充分利用注释:提高 AI 理解的精准程度
  5. 让 AI 设计测试:自己拉 Docker、设计测试用例、反复测

行业会怎么变?

冯若航的判断很直接:

AI 替代中级程序员,已经没有任何悬念了。

以后可能不会再有"程序员"这个职业,只有"软件工程师"。

区别在于: - 程序员:工作核心是写代码 - 软件工程师:用工程方法解决"写什么、为什么写、怎么验收"

谁受益,谁受损?

群体 影响
P6/P7 中间层 冲击最大
资深专家 超级红利期(至少还有 2 年)
聪明的应届生 大有机会(工资低、学习快、无路径依赖)

未来团队结构

1-3 个核心专家 + 6-7 个实习生 + 人均 2-3 个 AI Agent

One Person Company 会大量涌现。


总结

当写代码不值钱:

  1. 设计值钱:从意图到代码的信息级联,可追溯、可验证
  2. 验收值钱:Agent 对抗,交叉验证,人类仲裁

不要只追求"写了多少代码",要追求"代码质量是否可靠"。

时代真的变了。


参考:冯若航原文

相关阅读: - 用 AI Agent 赚钱的 5 种方式 - OpenClaw 六大用例