さらば、すべてのエヴァンゲリオン

Large Language Model 那些事

前言

最近,LLM炒的甚是火热,于是也来写一篇blog记录下。训练搞不了,只能做做RAG&Prompt Pipeline这种下游工程了,再就是结合API解决业务。

未完待续

Large Language Model 结构

TODO: transformer, GPT, zero from hero

应用

言语翻译

TODO: trick word, style, pipline

代码生成

TODO: 插件,质量

Flow构建

TODO: dify, langfuse, langchain

RAG

TODO: 最小实例 x的图

Atcoder 大挑战

结果:水色

App 现状

Server、Framework

ollama, langchain, vllm, llamaindex

Client

cherry-studio and so-on

关于论文研究

课题太空泛、就业的时候、HR问起研究不知道怎么详细说明。

研究还是以一个具体的问题、开始研究更好、至少在日本是这样。

老板问到:LLM能用在哪里,感觉不太可靠。本人是想把LLM缝合进机器人任务规划以及错误恢复策略中。类似于各厂的语音助手,既然能有Apple Intelligence,怎么就不能有Robot Intelligence。前者有Agent调用系统API实现任务完成,或者用来操控电脑,后者能否自建动作库,Agent调用动作库来完成实现任务呢。

但是,一套实验弄下来,发现没有核心技术几乎全靠Trick。首先,计算机里的任务基本都可以拆分成固定的API,并且API成功率极高,失败状态较少,现实环境复杂程度远超想象,单是环境识别就足够研究。另动作失败概率也较大。导致最后LLM的作用与其说是规划器不如说是目标与动作提取器。又因为涉及到硬件的东西又极其昂贵,目前做的动作仅有抓取。

物体抓取

物品调度就不用想了,太复杂了,实机不可能,我放弃了

于是,分割成两个部分

  • 设计Prompt来用LLM分解任务解析为动作API,并考虑如何结合环境多模态。现有论文能reproduce出完整结果的少之又少,很多都是某个模型(比如 GPT4)效果还可以,但是换个别的,比如GPT-4o就原地爆炸,明明后者性能更好。
  • 运用各种方法,构建动作库,比如传统算法+slam做导航,GraspNet配合3D点云做抓取,强化学习弄动作姿态等等。只要能work就行。像设计API一样,如果都是不可抢断的任务的话,线性执行的情况只需考虑传入参数和结果就行了。

饼学奥义

另外如同大部分人的观点一般,Prompt Engineer就那几套,没必要写成paper,浪费纸张。

OpenAI之前发布会放的,无人机拍照的demo,也是短程任务,因此我觉得我这个自己想的题啊,成功率堪忧,目前仿真的效果就真挺一般的,对于一个普通任务而言,先用LLM做一次大的分解,再用执行器去执行Decomposed Task

$$ n=num(LLM(task)) \\ rate_{task} = \prod_{i}^n rate_{planer_{i}} * rate_{action_{i}} $$

这成功率只能说是感动人心,问题还是硬件最大,其次是模型。尤其是当Reasoning Model出来之后,也许这种分解task的方法,比直接代码生成的方案要好。

现在再看看几篇paper,模拟早就发出来了,而不考虑实机的成功率仅仅40%~60%,而且都是简单的短期任务。 我非常担心,我实机做不出来。光一个Mobile Manipulation就够我想很久了,坐标系标定该怎么弄。

顶会参考论文

benchmark 大汇总

EmbodiedBench 虽然还没投,但是我估计不是ICRA就是IROSA会起步走。

这也许就是老板开始反对我做的原因吧,老板真的太好了😭,仍然让我选了我想试的题,还买了RTX 3090。我的内心只有——感恩🥹。

老板之于我,如同“藤野先生”之于鲁迅。