所以我放弃了编程

Posted on Aug 26, 2025 DRAFT

时间来到了2025年下半,LLM的发展速度比我的预想还要快一点。开源虽然等到了OpenAI的模型,但是已然泯然众人。除了一个品牌在,其余的并没有出色到眼前一亮的点。

但令人振奋的是Agent类的应用多了很多。相比客户端类型的交互式提问软件(Cherry StudioChatwise之类的)使用起来感觉更加的轻便。另外、Cherry Studiomcp以及联网查询做的并不太好。

客户端换皮软件,目前还少了一个deep search的功能,以及一个开箱即用,整合调用系统工具的功能。如果后续能把这些claude code已经做好的领域也做好。那么将成为一个真正的工作站。目前,只能算作一个对话工具。

于是想了很久,目前唯一可用的,跑通的工作流程是什么呢?个人认为是Coding——编程。

但是也正是如此,我发现,我已经被取代了。

だから僕は「CODING」を辞めた。

模型

基础模型性能在Deepseek V3.1之上,思考模型能力在Deepseek R1 0528之上的模型均可用作补全模型。

体感排名

  1. claude opus 4/4.1
  2. gemini 2.5 pro
  3. claude sonnet 3.5/3.7 3.7幻觉有点严重
  4. gpt-5
  5. gpt-oss 120b/Kimi K2

能用的就这些。Qwen Coder虽然跑分好看,但是个人感觉不太实用,没钱部署300b玩玩,仅小模型的感想。另外Deepseek系列则统统不太好用。

CLI工具

claude code

一键发射

1npm install -g @anthropic-ai/claude-code
2npm install -g @musistudio/claude-code-router
3# 常用mcp
4claude mcp add context7 -s project -- npx -y @upstash/context7-mcp
5# 配置
6ccr ui

善于写项目,CLI性能最强。可惜没开源,github上的仅仅是一个使用手册一样的东西。逆向在此处1有,有时间再细看咯。用claude-code-router可以接入部分第三方API,也算是穷人救星了。

gemini-cli

一键发射

1npm install -g @google/gemini-cli

我的最爱,单文件或者写小Tool时候的究极利器。例如,FFmpeg的命令参数忘了怎么办,直接gemini就完事了。但是debug性能不如claude code。

codex

目前太垃了。没啥好评的。

copilot

开了一半的源(开了个前端),终于在最新的#621里加入了对任意OpenAI API模型的支持。相当于官方下场做了个官方版的Roo code或者Continue。但是仓库开发者和贡献数量有限,至于开发速度是否能紧跟潮流,在此存疑。不过至少gpt-oss 20b来本地写码的梦想,是已经可以实现的了。

实际工程测试

Leetcode

题目 Leetcode 3000,简单模拟题,ccr+gpt-oss 20b,零提示词,1pass。
结果、秒杀。

1class Solution:
2    def areaOfMaxDiagonal(self, dimensions: List[List[int]]) -> int:
3        best_d2, best_area = 0, 0
4        for l, w in dimensions:
5            d2 = l * l + w * w
6            area = l * w
7            if d2 > best_d2 or (d2 == best_d2 and area > best_area):
8                best_d2, best_area = d2, area
9        return best_area

Atcoder

很久之前做过一次接近5pass测试,无任何Agent,题目直接给到Deepseek R1旧版的时候,大概是水色的水平,即1200-1999分的水平。更不说现在的模型了。已然跻身于上位5%。不过现在大家都有GPT、代理战争开起来,分数也越来越难挣了。

感想

大概做玩具项目是已经可以完全自动化了,剩下的其实是点子的好坏了。至少秒杀我是绰绰有余了,以前需要一上午的事情,现在最多20分钟。甚至连写文档都不需要人力了。不仅取代了传统的搜索引擎,连工作模式都发生了彻底的变化。

有任何不懂的直接GPT,有任何搞不定的开一个shell,同时勾选一个YOLO选项,坐着等就行了,只要最终目的清晰,会拆解任务的话,终将抵达彼岸

未来希望有一个能在搜索和对话上,有类似claude code的强大工具,目前的deep search性能还是太差,局限于知识的总结,思考很难看见。但只是代码有评测的基准,清晰的逻辑,但是对话跟搜索,不一定有标准啊。

未完待续。


  1. claude code v1.0.33的逆向工程完整研究和分析资料。不过回溯的方式是vibe coding ↩︎