来源:佐爷歪脖山
A work of art is never completed, only abandoned.
大家都在说 AI Agent,但是大家所说的并不是同一个东西,这导致我们所关心的 AI Agent 和大众视角下,以及 AI 从业者的视角都有所不同。
许久之前,我曾写过 Crypto 是 AI 的幻觉,从那时到现在,Crypto 和 AI 的结合一直是一场单相思,AI 从业者甚少提及 Web3/区块链这些术语,而 Crypto 从业者却对 AI 的一往情深,而在见识到 AI Agent 框架都能被代币化的奇景后,不知道能否真正将 AI 从业者引入我们的世界。
AI 是 Crypto 的代理人,这是从加密视角本位去看待本轮 AI 狂飙的最佳注释,Crypto 对 AI 的狂热不同于其他行业,我们特别希望能将金融资产的发行和运作与之嵌合。
究其根源,AI Agent 至少有三种源流,而 OpenAI 的 AGI(通用人工智能)将其列为重要一步,让该词成为超越技术层面的流行语,但是本质上 Agent 并不是新鲜概念,即使加上 AI 赋能,也很难说是革命性的技术趋势。
其一便是 OpenAI 眼中的 AI Agent,类似自动驾驶分级中的 L3,AI Agent 可以视作具备一定的高阶辅助驾驶能力,但是还不能完全取代人。
其二,顾名思义,AI Agent 是 AI 加持下的 Agent,代理机制、模式在计算机领域本不鲜见,而在 OpenAI 的谋划下,Agent 将成为继对话形式(ChatGPT)、推理形式(各类 Bot)后的 L3 阶段,其特点在于“自主进行某种行为”,或者用 LangChain 创始人 Harrison Chase 的定义:“AI Agent 是一个用 LLM 来做程序的控制流决策的系统。”
这就是其玄妙之处,在 LLM 出现之前,Agent 主要是执行人为设定好的自动化过程,仅举一例,程序员在设计爬虫程序时,会设置 User-Agent(用户代理),用以模仿真实用户使用的浏览器版本、操作系统等细节,当然,如果使用 AI Agent 来更加细致的模仿人类行为,那就会出现 AI Agent 爬虫框架,这样操作会让爬虫“更像人”。
在这样的变迁中,AI Agent 的加入必须和现有场景进行结合,完全独创的领域几乎不存在,即使是 Curosr、Github copilot 等代码补全和生成能力,也是在 LSP(语言服务器协议,Language Server Protocol)等思维下的进一步功能增强,这样的例子可以举出许多:
Apple:AppleScript(脚本编辑器)--Alfred--Siri--快捷指令(Shortcuts)--Apple Intelligence
终端:Terminal(macOS)/Power shell(Windows)--iTerm 2--Warp(AI Native)
人机交互:Web 1.0 CLI TCP/IP 网景浏览器--Web 2.0 GUI/RestAPI/搜索引擎/Google/Super App --Web 3.0 AI Agent + dapp ?
稍微解释一下,人机交互过程中,Web 1.0 GUI 和浏览器的结合真正让大众可以无门槛使用电脑,代表是 Windows+IE 的组合,而 API 是互联网背后的数据抽象和传输标准,Web 2.0 时代的浏览器已经是 Chrome 的时代,并且向移动端的转向改变了人们对互联网的使用习惯,微信、Meta 等超级平台的 App 覆盖了人们生活的方方面面。
其三,Crypto 领域的意图(Intent)概念是 AI Agent 圈内爆火的先导,不过要注意,这仅在 Crypto 内部有效,从功能残缺的比特币脚本到以太坊智能合约,本身就是 Agent 概念的泛用,而后催生的跨链桥--链抽象、EOA--AA 钱包都是此类思路的自然延伸,所以在 AI Agent “入侵” Crypto 之后,导向 DeFi 场景也就不足为奇。
这就是 AI Agent 概念的混淆之处,在 Crypto 的语境下,我们实际上想实现的是“自动理财、自动打新 Meme”的 Agent,但是在 OpenAI 的定义下,这么危险的场景甚至需要 L4/L5 才能真正实现,然后大众在把玩的是代码自动生成或者 AI 一键总结、代写等功能,双方交流并不在一个维度。
理解了我们真正想要的是什么,接下来重点聊聊 AI Agent 的组织逻辑,技术细节会隐藏其后,毕竟 AI Agent 的代理概念就是将技术从大规模普及的障碍前移除,一如浏览器对个人 PC 产业的点石成金,所以我们的重心会在两点上:从人机交互看 AI Agent ,以及 AI Agent 和 LLM 的区别和联系,以此引出第三部分:Crypto 和 AI Agent 的结合最终会留下什么。
在 ChatGPT 这类话聊式人机交互模式之前,人类和计算机的交互主要是 GUI(图形化界面) 和 CLI (命令行界面,Command-Line interface)两种形式,GUI 思维继续衍生出浏览器、App 等多种具体形式,CLI 和 Shell 的组合甚少变化。
但这只是“前端”表面的人机交互,随着互联网的发展,数据量和类型的增多导致数据和数据之间,App 和 App 之间的“后端”交互也在增多,两者互为依托,即使是简单的网页浏览行为,实际上也需要二者的协同与配合。
如果说人和浏览器、App 的互动说用户入口,那么 API 之间的链接和跳转则撑起了互联网的实际运行,其实这也是 Agent 的一部分,普通用户无需了解命令行和 API 等术语,即可实现自己的目的。
LLM 也是如此,现在用户可以更进一步,连搜索都不需要,整个过程可以被描述为以下几个步骤:
用户打开聊天窗口;
用户使用自然语言,即文字或语音描述自己的需要;
LLM 将其解析为流程化的操作步骤;
LLM 将其结果返回给用户。
可以发现,在这个过程中,受到最大挑战的是谷歌,因为用户并不需要打开搜索引擎,而是各类类 GPT 的对话窗口,流量入口正在悄然变化,也正是如此,才会有人认为本轮 LLM 革的是搜索引擎的命。
那么 AI Agent 又在其中起到何种作用呢?
一言以蔽之,AI Agent 是 LLM 的特化。
当前的 LLM 不是 AGI,即不是 OpenAI 理想中的 L5 组织者,其能力受到较大限制,比如吃多了用户输入信息很容易产生幻觉,其中一个重要原因在于训练机制,比如,如果你反复告诉 GPT 1+1=3,那么有一定概率在接下来的交互中询问 1+1+1=?时给出答案为 4 的可能性。
因为此时 GPT 的反馈完全来自于用户个人,如果该模型不联网,那么完全有可能被你的信息改变运作机制,以后就是一个只知道 1+1=3 的弱智 GPT,但是如果允许模型联网,那么 GPT 的反馈机制就更为多种多样,毕竟在网络上认为 1+1=2 的要占据绝大多数。
继续加大难度,如果我们一定要在本地使用 LLM,那么该如何避免此类问题?
一个简单粗暴的办法是同时使用两个 LLM,同时规定每次回答问题必须让两个 LLM 互相验证,以此降低出错的概率,再不行还有一些办法,比如每次让两个用户处理一个进程,一个负责问,一个负责微调问题,尽量让语言更规范、更理性一些。
当然,有时候联网也并不能完全规避问题发生,比如 LLM 检索到弱智吧的回答,那可能更糟糕,但是规避这些资料会导致可用数据量降低,那么完全可以将已有数据拆分和重组,甚至依据旧数据自行生产一些新数据,以此来让回答更可靠,其实这就是 RAG (Retrieval-Augmented Generation,检索增强生成)的自然语言理解。
人和机器需要互相理解,如果我们让多个 LLM 相互理解和协作,本质上已经是在触及 AI Agent 的运作模式,即人的代理去调用其他资源,甚至可以包括大模型和其他 Agent。
由此,我们掌握了 LLM 和 AI Agent 的联系:LLM 是一系列知识的汇总,人类可以通过对话窗口与之交流,但是在实践中,我们发现一些特定的任务流可以被归纳为特定的小程序、Bot、指令集合,我们就把这些定义为 Agent。
AI Agent 依然是 LLM 的一部分,两者不能等同视之,而 AI Agent 的调用方式在 LLM 的基础上,特别强调对外部程序、LLM 和其他 Agent 的协同,所以才有 AI Agent = LLM+API 的感慨。
那么,在 LLM 的工作流上,可以添加 AI Agent 的说明,我们以调用 X 的 API 数据为例:
人类用户打开聊天窗口;
用户使用自然语言,即文字或语音描述自己的需要;
LLM 将其解析为 API 调用类 AI Agent 任务,并将对话权限转移给该 Agent;
AI Agent 询问用户 X 账号和 API 密码,并根据用户描述与 X 联网通信;
AI Agent 将最终结果返回给用户。
还记得人机交互的进化史吗,在 Web 1.0 和 Web 2.0 存在的浏览器、API 等依然会存在,但是用户完全可以无视其存在,只需要跟 AI Agent 交互即可,而 API 调用等过程都可以用对话方式使用,而这些 API 服务可以是任意类型,包括本地的数据,联网信息,以及外部 App 的数据,只要对方开放接口,并且用户具备其使用权限。
一个完整的 AI Agent 使用流程如上图,LLM 在其中可以视作和 AI Agent 分离的部分,也可以视为一个过程的两个子环节,但是无论如何划分,都是在服务用户的需求。
从人机交互的过程来看,甚至是用户自己跟自己在对话,你只需尽情表达自己的所思所想,AI/LLM/AI Agent 会一次次的猜测你的需要,反馈机制的加入,以及要求 LLM 对当前情景上下文(Context)的记忆,可以确保 AI Agent 不会突然忘记自己在干什么。
总之,AI Agent 是更具人格化的产物,这是其和传统的脚本、自动化工具的本质区别,就像一个私人管家一样去为用户考虑真实需求,但是必须指出,这种人格依然是一种概率推测的结果,L3 级别的 AI Agent 没有人类的理解和表达能力,因此将其和外部 API 的对接充满着危险。
AI 框架竟然能货币化是我对 Crypto 保持兴趣的重要原因,在传统的 AI 技术堆栈中,框架并不十分重要,至少比不上数据和算力,而 AI 产品的变现方式也很难从框架入手,毕竟大部分 AI 算法和模型框架都是开源产品,真正闭源的是数据等敏感信息。
本质上而言,AI 框架或者模型是一系列算法的容器与组合,就相当于铁锅炖大鹅的铁锅,但是大鹅的品种以及火候的掌握才是味道区分的关键,卖的产品本应该是大鹅,但是现在来了 Web3 的客户,他们要买椟还珠,买锅弃鹅。
原因并不复杂,Web3 的 AI 产品基本都是拾人牙慧,都是在已有的 AI 框架、算法和产品上改进出自己的定制化产品,甚至不同的 Crypto AI 框架背后的技术原理都相差不大,既然技术上无法区分,就需要在名称、应用场景等方面做文章,于是 AI 框架本身的某些细微调整都成了不同代币的支撑,因此造成了 Crypto AI Agent 的框架泡沫。
既然不需要自己投入重金训练数据和算法,则名称区别法就格外重要,DeepSeek V3 再便宜,也需要博士头发和 GPU 、电力的大量消耗。
某种意义上而言,这也是 Web3 近期的一贯风格,即代币发行平台比代币值钱,Pump.Fun/Hyperliquid 都是如此,本来 Agent 应该是应用和资产,但是 Agent 发行框架竟然成为最当红产品。
其实这也是一种价值锚定思路,既然各类 Agent 并无区分度,那么 Agent 框架反而更稳定一些,能产生资产发行的价值虹吸效应,这是目前 Crypto 和 AI Agent 结合的 1.0 版本。
而 2.0 版本正在浮现,典型是 DeFi 和 AI Agent 的结合,DeFAI 的概念提出当然是热度刺激下的市场行为,但是如果我们把以下情况考虑在内就会发现有所不同:
Morpho 正在挑战 Aave 等老借贷产品;
Hyperliquid 正在取代 dYdX 的链上衍生品,甚至是挑战币安的 CEX 上币效应;
稳定币正在成为链下场景的支付工具。
正是在 DeFi 嬗变的大背景下,AI 正在改进 DeFi 的基本逻辑,如果之前 DeFi 最大的逻辑是验证智能合约的可行性,那么 AI Agent 则让 DeFi 的制造逻辑发生改变,你并不需要理解 DeFi 才能制造 DeFi 产品,这是比链抽象更进一步的底层赋能。
人人都是程序员的时代即将到来,复杂的计算可以外包给 AI Agent 背后的 LLM 和 API,而个人只需要专注于自己的想法,自然语言可以被高效转化为编程逻辑。
本文并未提及任何 Crypto AI Agent 代币和框架,因为 Cookie.Fun 已经做的足够好,AI Agent 信息聚合和代币发现平台,进而是 AI Agent 框架,最后才是忽生忽灭的 Agent 代币,继续在文内罗列信息已无价值。
但是在这一段时间的观察中,市场上依然缺少真正对 Crypto AI Agent 指向究竟是什么的探讨,我们不能总是在讨论指针,内存变化才是本质。
也正是生生不息的将各类标的资产化的能力,才是 Crypto 的魅力所在。
声明:本文由入驻金色财经的作者撰写,观点仅代表作者本人,绝不代表金色财经赞同其观点或证实其描述。
提示:投资有风险,入市须谨慎。本资讯不作为投资理财建议。
华尔街见闻
忘川边的但丁
Meteorite Labs
量子号