当变革变成革命, AI Agent x Crypto进化始末

gateio

OK欧意交易所

全球排名前三的数字货币衍生品交易平台,新用户注册可拆数字货币盲盒,最高60000元,100%有奖哦

点击注册 进入官网

A work of art is never completed, only abandoned.

大家都在说 AI Agent,但是大家所说的并不是同一个东西,这导致我们所关心的 AI Agent 和大众视角下,以及 AI 从业者的视角都有所不同。

许久之前,我曾写过Crypto 是 AI 的幻觉,从那时到现在,Crypto 和 AI 的结合一直是一场单相思,AI 从业者甚少提及 Web3/区块链这些术语,而 Crypto 从业者却对 AI 的一往情深,而在见识到 AI Agent 框架都能被代币化的奇景后,不知道能否真正将 AI 从业者引入我们的世界。

AI 是 Crypto 的代理人,这是从加密视角本位去看待本轮 AI 狂飙的最佳注释,Crypto 对 AI 的狂热不同于其他行业,我们特别希望能将金融资产的发行和运作与之嵌合。

Agent 进化,技术营销下的本源

究其根源,AI Agent 至少有三种源流,而 OpenAI 的 AGI(通用人工智能)将其列为重要一步,让该词成为超越技术层面的流行语,但是本质上 Agent 并不是新鲜概念,即使加上 AI 赋能,也很难说是革命性的技术趋势。

其一便是 OpenAI 眼中的 AI Agent,类似自动驾驶分级中的 L3,AI Agent 可以视作具备一定的高阶辅助驾驶能力,但是还不能完全取代人。

图片说明:OpenAI 规划的 AGI 阶段图片来源:https://www.bloomberg.com/

其二,顾名思义,AI Agent 是 AI 加持下的 Agent,代理机制、模式在计算机领域本不鲜见,而在 OpenAI 的谋划下,Agent 将成为继对话形式(ChatGPT)、推理形式(各类 Bot)后的 L3 阶段,其特点在于“自主进行某种行为”,或者用 LangChain 创始人 Harrison Chase 的定义:“AI Agent 是一个用 LLM 来做程序的控制流决策的系统。”

这就是其玄妙之处,在 LLM 出现之前,Agent 主要是执行人为设定好的自动化过程,仅举一例,程序员在设计爬虫程序时,会设置 User-Agent(用户代理),用以模仿真实用户使用的浏览器版本、操作系统等细节,当然,如果使用 AI Agent 来更加细致的模仿人类行为,那就会出现 AI Agent 爬虫框架,这样操作会让爬虫“更像人”。

在这样的变迁中,AI Agent 的加入必须和现有场景进行结合,完全独创的领域几乎不存在,即使是 Curosr、Github copilot 等代码补全和生成能力,也是在 LSP(语言服务器协议,Language Server Protocol)等思维下的进一步功能增强,这样的例子可以举出许多:

  • Apple:AppleScript(脚本编辑器)–Alfred–Siri–快捷指令(Shortcuts)–Apple Intelligence
  • 终端:Terminal(macOS)/Power shell(Windows)–iTerm 2–Warp(AI Native)
  • 人机交互:Web 1.0 CLI TCP/IP 网景浏览器–Web 2.0 GUI/RestAPI/搜索引擎/Google/Super App –Web 3.0 AI Agent + dapp ?

稍微解释一下,人机交互过程中,Web 1.0 GUI 和浏览器的结合真正让大众可以无门槛使用电脑,代表是 Windows+IE 的组合,而 API 是互联网背后的数据抽象和传输标准,Web 2.0 时代的浏览器已经是 Chrome 的时代,并且向移动端的转向改变了人们对互联网的使用习惯,微信、Meta 等超级平台的 App 覆盖了人们生活的方方面面。

其三,Crypto 领域的意图(Intent)概念是 AI Agent 圈内爆火的先导,不过要注意,这仅在 Crypto 内部有效,从功能残缺的比特币脚本到以太坊智能合约,本身就是 Agent 概念的泛用,而后催生的跨链桥–链抽象、EOA–AA 钱包都是此类思路的自然延伸,所以在 AI Agent “入侵” Crypto 之后,导向 DeFi 场景也就不足为奇。

这就是 AI Agent 概念的混淆之处,在 Crypto 的语境下,我们实际上想实现的是“自动理财、自动打新 Meme”的 Agent,但是在 OpenAI 的定义下,这么危险的场景甚至需要 L4/L5 才能真正实现,然后大众在把玩的是代码自动生成或者 AI 一键总结、代写等功能,双方交流并不在一个维度。

理解了我们真正想要的是什么,接下来重点聊聊 AI Agent 的组织逻辑,技术细节会隐藏其后,毕竟 AI Agent 的代理概念就是将技术从大规模普及的障碍前移除,一如浏览器对个人 PC 产业的点石成金,所以我们的重心会在两点上:从人机交互看 AI Agent ,以及 AI Agent 和 LLM 的区别和联系,以此引出第三部分:Crypto 和 AI Agent 的结合最终会留下什么。

let AI_Agent = LLM+API;

在 ChatGPT 这类话聊式人机交互模式之前,人类和计算机的交互主要是 GUI(图形化界面) 和 CLI (命令行界面,Command-Line interface)两种形式,GUI 思维继续衍生出浏览器、App 等多种具体形式,CLI 和 Shell 的组合甚少变化。

当变革变成革命, AI Agent x Crypto进化始末

但这只是“前端”表面的人机交互,随着互联网的发展,数据量和类型的增多导致数据和数据之间,App 和 App 之间的“后端”交互也在增多,两者互为依托,即使是简单的网页浏览行为,实际上也需要二者的协同与配合。

如果说人和浏览器、App 的互动说用户入口,那么 API 之间的链接和跳转则撑起了互联网的实际运行,其实这也是 Agent 的一部分,普通用户无需了解命令行和 API 等术语,即可实现自己的目的。

LLM 也是如此,现在用户可以更进一步,连搜索都不需要,整个过程可以被描述为以下几个步骤:

  1. 用户打开聊天窗口;
  2. 用户使用自然语言,即文字或语音描述自己的需要;
  3. LLM 将其解析为流程化的操作步骤;
  4. LLM 将其结果返回给用户。

可以发现,在这个过程中,受到最大挑战的是谷歌,因为用户并不需要打开搜索引擎,而是各类类 GPT 的对话窗口,流量入口正在悄然变化,也正是如此,才会有人认为本轮 LLM 革的是搜索引擎的命。

那么 AI Agent 又在其中起到何种作用呢?

一言以蔽之,AI Agent 是 LLM 的特化。

当前的 LLM 不是 AGI,即不是 OpenAI 理想中的 L5 组织者,其能力受到较大限制,比如吃多了用户输入信息很容易产生幻觉,其中一个重要原因在于训练机制,比如,如果你反复告诉 GPT 1+1=3,那么有一定概率在接下来的交互中询问 1+1+1=?时给出答案为 4 的可能性。

因为此时 GPT 的反馈完全来自于用户个人,如果该模型不联网,那么完全有可能被你的信息改变运作机制,以后就是一个只知道 1+1=3 的弱智 GPT,但是如果允许模型联网,那么 GPT 的反馈机制就更为多种多样,毕竟在网络上认为 1+1=2 的要占据绝大多数。

继续加大难度,如果我们一定要在本地使用 LLM,那么该如何避免此类问题?

一个简单粗暴的办法是同时使用两个 LLM,同时规定每次回答问题必须让两个 LLM 互相验证,以此降低出错的概率,再不行还有一些办法,比如每次让两个用户处理一个进程,一个负责问,一个负责微调问题,尽量让语言更规范、更理性一些。

当然,有时候联网也并不能完全规避问题发生,比如 LLM 检索到弱智吧的回答,那可能更糟糕,但是规避这些资料会导致可用数据量降低,那么完全可以将已有数据拆分和重组,甚至依据旧数据自行生产一些新数据,以此来让回答更可靠,其实这就是 RAG (Retrieval-Augmented Generation,检索增强生成)的自然语言理解。

人和机器需要互相理解,如果我们让多个 LLM 相互理解和协作,本质上已经是在触及 AI Agent 的运作模式,即人的代理去调用其他资源,甚至可以包括大模型和其他 Agent。

由此,我们掌握了 LLM 和 AI Agent 的联系:LLM 是一系列知识的汇总,人类可以通过对话窗口与之交流,但是在实践中,我们发现一些特定的任务流可以被归纳为特定的小程序、Bot、指令集合,我们就把这些定义为 Agent。

AI Agent 依然是 LLM 的一部分,两者不能等同视之,而 AI Agent 的调用方式在 LLM 的基础上,特别强调对外部程序、LLM 和其他 Agent 的协同,所以才有 AI Agent = LLM+API 的感慨。

那么,在 LLM 的工作流上,可以添加 AI Agent 的说明,我们以调用 X 的 API 数据为例:

  1. 人类用户打开聊天窗口;
  2. 用户使用自然语言,即文字或语音描述自己的需要;
  3. LLM 将其解析为 API 调用类 AI Agent 任务,并将对话权限转移给该 Agent;
  4. AI Agent 询问用户 X 账号和 API 密码,并根据用户描述与 X 联网通信;
  5. AI Agent 将最终结果返回给用户。

还记得人机交互的进化史吗,在 Web 1.0 和 Web 2.0 存在的浏览器、API 等依然会存在,但是用户完全可以无视其存在,只需要跟 AI Agent 交互即可,而 API 调用等过程都可以用对话方式使用,而这些 API 服务可以是任意类型,包括本地的数据,联网信息,以及外部 App 的数据,只要对方开放接口,并且用户具备其使用权限。

当变革变成革命, AI Agent x Crypto进化始末

一个完整的 AI Agent 使用流程如上图,LLM 在其中可以视作和 AI Agent 分离的部分,也可以视为一个过程的两个子环节,但是无论如何划分,都是在服务用户的需求。

从人机交互的过程来看,甚至是用户自己跟自己在对话,你只需尽情表达自己的所思所想,AI/LLM/AI Agent 会一次次的猜测你的需要,反馈机制的加入,以及要求 LLM 对当前情景上下文(Context)的记忆,可以确保 AI Agent 不会突然忘记自己在干什么。

总之,AI Agent 是更具人格化的产物,这是其和传统的脚本、自动化工具的本质区别,就像一个私人管家一样去为用户考虑真实需求,但是必须指出,这种人格依然是一种概率推测的结果,L3 级别的 AI Agent 没有人类的理解和表达能力,因此将其和外部 API 的对接充满着危险。

AI 框架货币化之后

AI 框架竟然能货币化是我对 Crypto 保持兴趣的重要原因,在传统的 AI 技术堆栈中,框架并不十分重要,至少比不上数据和算力,而 AI 产品的变现方式也很难从框架入手,毕竟大部分 AI 算法和模型框架都是开源产品,真正闭源的是数据等敏感信息。

本质上而言,AI 框架或者模型是一系列算法的容器与组合,就相当于铁锅炖大鹅的铁锅,但是大鹅的品种以及火候的掌握才是味道区分的关键,卖的产品本应该是大鹅,但是现在来了 Web3 的客户,他们要买椟还珠,买锅弃鹅。

原因并不复杂,Web3 的 AI 产品基本都是拾人牙慧,都是在已有的 AI 框架、算法和产品上改进出自己的定制化产品,甚至不同的 Crypto AI 框架背后的技术原理都相差不大,既然技术上无法区分,就需要在名称、应用场景等方面做文章,于是 AI 框架本身的某些细微调整都成了不同代币的支撑,因此造成了 Crypto AI Agent 的框架泡沫。

既然不需要自己投入重金训练数据和算法,则名称区别法就格外重要,DeepSeek V3 再便宜,也需要博士头发和 GPU 、电力的大量消耗。

某种意义上而言,这也是 Web3 近期的一贯风格,即代币发行平台比代币值钱,Pump.Fun/Hyperliquid 都是如此,本来 Agent 应该是应用和资产,但是 Agent 发行框架竟然成为最当红产品。

其实这也是一种价值锚定思路,既然各类 Agent 并无区分度,那么 Agent 框架反而更稳定一些,能产生资产发行的价值虹吸效应,这是目前 Crypto 和 AI Agent 结合的 1.0 版本。

而 2.0 版本正在浮现,典型是 DeFi 和 AI Agent 的结合,DeFAI 的概念提出当然是热度刺激下的市场行为,但是如果我们把以下情况考虑在内就会发现有所不同:

  • Morpho 正在挑战 Aave 等老借贷产品;
  • Hyperliquid 正在取代 dYdX 的链上衍生品,甚至是挑战币安的 CEX 上币效应;
  • 稳定币正在成为链下场景的支付工具。

正是在 DeFi 嬗变的大背景下,AI 正在改进 DeFi 的基本逻辑,如果之前 DeFi 最大的逻辑是验证智能合约的可行性,那么 AI Agent 则让 DeFi 的制造逻辑发生改变,你并不需要理解 DeFi 才能制造 DeFi 产品,这是比链抽象更进一步的底层赋能。

人人都是程序员的时代即将到来,复杂的计算可以外包给 AI Agent 背后的 LLM 和 API,而个人只需要专注于自己的想法,自然语言可以被高效转化为编程逻辑。

结语

本文并未提及任何 Crypto AI Agent 代币和框架,因为 Cookie.Fun 已经做的足够好,AI Agent 信息聚合和代币发现平台,进而是 AI Agent 框架,最后才是忽生忽灭的 Agent 代币,继续在文内罗列信息已无价值。

但是在这一段时间的观察中,市场上依然缺少真正对 Crypto AI Agent 指向究竟是什么的探讨,我们不能总是在讨论指针,内存变化才是本质。

也正是生生不息的将各类标的资产化的能力,才是 Crypto 的魅力所在。

上一篇 2天前
下一篇 2天前

相关推荐