时间来到了2025年下半,LLM
的发展速度比我的预想还要快一点。开源虽然等到了OpenAI
的模型,但是已然泯然众人。除了一个品牌在,其余的并没有出色到眼前一亮的点。
但令人振奋的是Agent
类的应用多了很多。相比客户端类型的交互式提问软件(Cherry Studio
、Chatwise
之类的)使用起来感觉更加的轻便。另外、Cherry Studio
的mcp
以及联网查询做的并不太好。
客户端换皮软件,目前还少了一个deep search
的功能,以及一个开箱即用,整合调用系统工具的功能。如果后续能把这些claude code
已经做好的领域也做好。那么将成为一个真正的工作站。目前,只能算作一个对话工具。
于是想了很久,目前唯一可用的,跑通的工作流程是什么呢?个人认为是Coding
——编程。
但是也正是如此,我发现,我已经被取代了。
だから僕は「CODING」を辞めた。
模型
基础模型性能在Deepseek V3.1
之上,思考模型能力在Deepseek R1 0528
之上的模型均可用作补全模型。
体感排名
- claude opus 4/4.1
- gemini 2.5 pro
- claude sonnet 3.5/3.7
3.7幻觉有点严重
- gpt-5
- gpt-oss 120b/Kimi K2
能用的就这些。Qwen Coder
虽然跑分好看,但是个人感觉不太实用,没钱部署300b玩玩,仅小模型的感想。另外Deepseek系列则统统不太好用。
CLI工具
claude code
一键发射
1npm install -g @anthropic-ai/claude-code
2npm install -g @musistudio/claude-code-router
3# 常用mcp
4claude mcp add context7 -s project -- npx -y @upstash/context7-mcp
5# 配置
6ccr ui
善于写项目,CLI性能最强。可惜没开源,github上的仅仅是一个使用手册一样的东西。逆向在此处1有,有时间再细看咯。用claude-code-router可以接入部分第三方API,也算是穷人救星了。
gemini-cli
一键发射
1npm install -g @google/gemini-cli
我的最爱,单文件或者写小Tool时候的究极利器。例如,FFmpeg的命令参数忘了怎么办,直接gemini就完事了。但是debug性能不如claude code。
codex
目前太垃了。没啥好评的。
copilot
开了一半的源(开了个前端),终于在最新的#621里加入了对任意OpenAI API模型的支持。相当于官方下场做了个官方版的Roo code
或者Continue
。但是仓库开发者和贡献数量有限,至于开发速度是否能紧跟潮流,在此存疑。不过至少gpt-oss 20b来本地写码的梦想,是已经可以实现的了。
实际工程测试
Leetcode
题目 Leetcode 3000,简单模拟题,ccr+gpt-oss 20b,零提示词,1pass。
结果、秒杀。
1class Solution:
2 def areaOfMaxDiagonal(self, dimensions: List[List[int]]) -> int:
3 best_d2, best_area = 0, 0
4 for l, w in dimensions:
5 d2 = l * l + w * w
6 area = l * w
7 if d2 > best_d2 or (d2 == best_d2 and area > best_area):
8 best_d2, best_area = d2, area
9 return best_area
Atcoder
很久之前做过一次接近5pass
的测试,无任何Agent,题目直接给到Deepseek R1旧版的时候,大概是水色的水平,即1200-1999分的水平。更不说现在的模型了。已然跻身于上位5%。不过现在大家都有GPT、代理战争开起来,分数也越来越难挣了。
感想
大概做玩具项目是已经可以完全自动化了,剩下的其实是点子的好坏了。至少秒杀我是绰绰有余了,以前需要一上午的事情,现在最多20分钟。甚至连写文档都不需要人力了。不仅取代了传统的搜索引擎,连工作模式都发生了彻底的变化。
有任何不懂的直接GPT,有任何搞不定的开一个shell,同时勾选一个YOLO选项,坐着等就行了,只要最终目的清晰,会拆解任务的话,终将抵达彼岸。
未来希望有一个能在搜索和对话上,有类似claude code的强大工具,目前的deep search性能还是太差,局限于知识的总结,思考很难看见。但只是代码有评测的基准,清晰的逻辑,但是对话跟搜索,不一定有标准啊。
未完待续。
-
claude code v1.0.33的逆向工程完整研究和分析资料。不过回溯的方式是vibe coding ↩︎