Large Language Model 那些事
前言
最近,LLM
炒的甚是火热,于是也来写一篇blog
记录下。训练搞不了,只能做做RAG
&Prompt Pipeline
这种下游工程了,再就是结合API
解决业务。
Large Language Model 结构
TODO: transformer, GPT, zero from hero
应用
言语翻译
TODO: trick word, style, pipline
代码生成
TODO: 插件,质量
Flow构建
TODO: dify, langfuse, langchain
RAG
TODO: 最小实例 x的图
Atcoder 大挑战
结果:水色
App 现状
Server、Framework
ollama, langchain, vllm, llamaindex
Client
cherry-studio and so-on
关于论文研究
课题太空泛、就业的时候、HR问起研究不知道怎么详细说明。
研究还是以一个具体的问题、开始研究更好、至少在日本是这样。
老板问到:LLM
能用在哪里,感觉不太可靠。本人是想把LLM
缝合进机器人任务规划
以及错误恢复策略中
。类似于各厂的语音助手,既然能有Apple Intelligence
,怎么就不能有Robot Intelligence
。前者有Agent
调用系统API
实现任务完成,或者用来操控电脑,后者能否自建动作库,Agent
调用动作库来完成实现任务呢。
但是,一套实验弄下来,发现没有核心技术几乎全靠Trick
。首先,计算机里的任务基本都可以拆分成固定的API
,并且API
成功率极高,失败状态较少,现实环境复杂程度远超想象,单是环境识别就足够研究。另动作失败概率也较大。导致最后LLM
的作用与其说是规划器不如说是目标与动作提取器。又因为涉及到硬件的东西又极其昂贵,目前做的动作仅有抓取。

物体抓取

物品调度就不用想了,太复杂了,实机不可能,我放弃了
于是,分割成两个部分
- 设计
Prompt
来用LLM
分解任务解析为动作API
,并考虑如何结合环境多模态。现有论文能reproduce出完整结果的少之又少,很多都是某个模型(比如GPT4
)效果还可以,但是换个别的,比如GPT-4o
就原地爆炸,明明后者性能更好。 - 运用各种方法,构建动作库,比如传统算法+
slam
做导航,GraspNet
配合3D点云做抓取,强化学习弄动作姿态等等。只要能work
就行。像设计API一样,如果都是不可抢断的任务的话,线性执行
的情况只需考虑传入参数
和结果就行了。

饼学奥义
另外如同大部分人的观点一般,Prompt Engineer
就那几套,没必要写成paper
,浪费纸张。
OpenAI之前发布会放的,无人机拍照的demo,也是短程任务,因此我觉得我这个自己想的题啊,成功率堪忧,目前仿真的效果就真挺一般的,对于一个普通任务而言,先用LLM
做一次大的分解,再用执行器去执行Decomposed Task
。
这成功率只能说是感动人心,问题还是硬件最大,其次是模型。尤其是当Reasoning Model
出来之后,也许这种分解task
的方法,比直接代码生成的方案要好。
现在再看看几篇paper
,模拟早就发出来了,而不考虑实机的成功率仅仅40%~60%
,而且都是简单的短期任务。
我非常担心,我实机做不出来。光一个Mobile Manipulation
就够我想很久了,坐标系标定该怎么弄。
这也许就是老板开始反对我做的原因吧,老板真的太好了😭,仍然让我选了我想试的题,还买了RTX 3090
。我的内心只有——感恩🥹。
老板之于我,如同“藤野先生”之于鲁迅。