
多年来九游体育娱乐网,科技巨头的首席履行官们一直宣扬AI智能体(AI agents)的愿景 —— 这类智能体可自主使用软件利用为东说念主类完成任务。但如今将消费者级 AI 智能体(无论是 OpenAI 的 ChatGPT Agent,已经 Perplexity 的 Comet)参加推行使用便会发现,这项技艺的局限性仍十分彰着。要让 AI 智能体具备更强的慎重性,梗概需要行业尚未透彻探索出的一系列新技艺支捏。 其中一项技艺即是悉心模拟 “责任空间”,让智能体在其中接受多法子任务磨砺 —— 这种
多年来九游体育娱乐网,科技巨头的首席履行官们一直宣扬AI智能体(AI agents)的愿景 —— 这类智能体可自主使用软件利用为东说念主类完成任务。但如今将消费者级 AI 智能体(无论是 OpenAI 的 ChatGPT Agent,已经 Perplexity 的 Comet)参加推行使用便会发现,这项技艺的局限性仍十分彰着。要让 AI 智能体具备更强的慎重性,梗概需要行业尚未透彻探索出的一系列新技艺支捏。
其中一项技艺即是悉心模拟 “责任空间”,让智能体在其中接受多法子任务磨砺 —— 这种 “责任空间” 被称为强化学习(reinforcement learning,简称 RL)环境。正如带标签的数据集鼓吹了上一波 AI 发展波浪,强化学习环境正冉冉成为智能体开荒历程中的裂缝身分。
AI 筹商东说念主员、创业者及投资者披露,现在顶尖 AI 实验室对强化学习环境的需求大幅增多,而特意提供此类技艺的初创公司也不在少数。
“统统大型 AI 实验室齐在里面搭建强化学习环境,” 安德森・霍洛维茨基金(Andreessen Horowitz)庸俗联合东说念主珍妮弗・李暗示,“但可思而知,创建这类数据集的复杂度极高,因此 AI 实验室也在寻找能打造高质料环境与评估体系的第三方供应商。统统这个词行业齐在照管这一领域。”
对强化学习环境的需求催生了一批资金浑厚的新兴初创公司,举例 Mechanize Work 和 Prime Intellect,这些公司均悉力于在该领域占据率先地位。与此同期,Mercor、Surge 等大型数据标注公司暗示,跟着行业正从静态数据集向交互式模拟转型,它们也在加大对强化学习环境的参加以跟上趋势。大型实验室相通在辩论多数投资:据《The Information》报说念,Anthropic 的惩办层已询查规划在改日一年内,为强化学习环境参加超 10 亿好意思元。
投资者与创业者们祈望,这些初创公司中能降生出 “强化学习环境领域的 Scale AI”—— 这里的 Scale AI 是估值 290 亿好意思元的数据标注巨头,曾为聊天机器东说念主期间的发展提供了迫切撑捏。
现在的中枢问题在于,强化学习环境是否真能鼓吹 AI 技艺冲破现存范畴。
什么是强化学习(RL)环境?
从本色上讲,强化学习环境是模拟 AI 智能体在真实软件利用中操作场景的 “磨砺场”。一位创业者在近期采访中形容其构建历程 “就像制作一款终点败兴的电子游戏”。
举例,某个环境可模拟 Chrome 浏览器,并向 AI 智能体下达 “在亚马逊上购买一对袜子” 的任务。系统会对智能体的进展进行评分,若任务奏效(即买到相宜的袜子),便会向其发送 “奖励信号”。
尽管这类任务听起来相对不详,但 AI 智能体在履行历程中仍可能在多个关节出错:可能在网页下拉菜单中 “迷途”,也可能误购多双袜子。由于开荒者无法精确展望智能体可能出现的作假,环境本人必须具备填塞的慎重性,既能捕捉所特意新手为,又能提供有用的响应 —— 这使得构建环境的复杂度远高于创建静态数据集。
部分强化学习环境联想十分复杂,可支捏 AI 智能体使用用具、拜谒互联网或调用各样软件利用完成指定任务;另有部分环境则定位更细分,专注于匡助智能体学习企业级软件利用中的特定任务。
尽管强化学习环境如今是硅谷的热点技艺,但使用这类技艺的前例早已有之。2016 年,OpenAI 的首批风光之一即是构建 “RL Gyms”(强化学习场馆),其理念与当代强化学习环境高度相似;同庚,谷歌 DeepMind 的 AlphaGo AI 系统打败围棋天下冠军,该系统相通在模拟环境中给与了强化学习技艺。
如今的强化学习环境之是以具有专有性,在于筹商东说念主员正尝试伙同大型 Transformer 模子,打造能 “使用计较机” 的 AI 智能体。与 AlphaGo(仅适用于闭塞环境的专用 AI 系统)不同,如今的 AI 智能体旨在具备更通用的智力。现时的 AI 筹商东说念主员虽领有更坚实的技艺首先,但指标也更为复杂,可能出现的问题也更多。
竞争强烈的领域
Scale AI、Surge、Mercor 等 AI 数据标注公司正积极顺应趋势,遵循打造强化学习环境。这些公司不仅比该领域多数初创企业领有更充足的资源,还与 AI 实验室建立了深厚的相助相干。
Surge 首席履行官埃德温・陈(Edwin Chen)暗示,近期已不雅察到 AI 实验室对强化学习环境的需求 “权贵增长”。他披露,Surge 客岁通过与 OpenAI、谷歌、Anthropic、Meta 等 AI 实验室相助,营收条称达到 12 亿好意思元;该公司近期已栽培专门的里面团队,雅致强化学习环境的搭建责任。
紧随 Surge 之后的是估值 100 亿好意思元的初创公司 Mercor,该公司相通与 OpenAI、Meta、Anthropic 有相助。TechCrunch 获取的营销材料骄气,Mercor 正向投资者推介其中枢业务 —— 为编程、医疗、法律等特定领域任务打造强化学习环境。
Mercor 首席履行官布伦丹・富迪(Brendan Foody)在采访中暗示:“很少有东说念主真实签订到,强化学习环境领域蕴含的机遇究竟有多大。”
Scale AI 曾在数据标注领域占据主导地位,但自 Meta 投资 140 亿好意思元并挖走其首席履行官后,该公司的商场份额冉冉下滑。而后,谷歌和 OpenAI 不再将 Scale AI 列为数据供应商,以至在 Meta 里面,Scale AI 也濒临数据标注业务的竞争压力。尽管如斯,Scale AI 仍在勤苦适合趋势,投身强化学习环境的构建。
“这恰是(Scale AI)所处行业的本色,”Scale AI 雅致智能体与强化学习环境的居品雅致东说念主切坦・拉内(Chetan Rane)暗示,“Scale 已表露注解其快速适合的智力:在咱们的首个业务板块 —— 自动驾驶领域的早期阶段,咱们作念到了这一丝;ChatGPT 问世后,Scale AI 也奏效适合了新趋势;如今,咱们再次在智能体、环境等新前沿领域进行退换。”
部分新兴企业从创立之初便专注于强化学习环境领域。栽培约 6 个月的初创公司 Mechanize Work 即是其中之一,该公司提议了 “杀青统统责任自动化” 的果敢指标。不外,辩论首创东说念主马修・巴尼特(Matthew Barnett)向 TechCrunch 披露,其公司现在正从为 AI 编程智能体打造强化学习环境起步。
巴尼特暗示,Mechanize Work 规划为 AI 实验室提供极少高慎重性的强化学习环境,而非像大型数据公司那样打造大宗不详的强化学习环境。为此,该初创公司为软件工程师开出了 50 万好意思元的年薪(用于构建强化学习环境),这一薪资远高于在 Scale AI 或 Surge 从事小时工性质责任的酬报。
两位知情东说念主士披露,Mechanize Work 已启动与 Anthropic 相助开荒强化学习环境。对此,Mechanize Work 与 Anthropic 均圮绝就相助细节置评。
另有部分初创公司押注强化学习环境在 AI 实验室除外的领域也将产生影响力。由 AI 筹商员安德烈・卡帕西(Andrej Karpathy)、Founders Fund 风投、Menlo Ventures 风投支捏的初创公司 Prime Intellect,正将其强化学习环境定位为做事中微型开荒者。
上个月,Prime Intellect 推出了强化学习环境中心,指标是打造 “强化学习环境领域的 Hugging Face”(Hugging Face 为 AI 领域驰名开源社区)。该平台旨在闪开源开荒者取得与大型 AI 实验室同等的资源支捏,同期在此历程中向开荒者出售计较资源拜谒权限。
Prime Intellect 筹商员威尔・布朗(Will Brown)暗示,在强化学习环境中磨砺具备通用智力的智能体,所需的计较本钱可能高于以往的 AI 磨砺技艺。因此,除了打造强化学习环境的初创公司,为这一历程提供算力支捏的 GPU 供应商也将迎来机遇。
“莫得任何一家公司能独自主导强化学习环境领域,其限制太大了,” 布朗在采访中说,“咱们现在所作念的部单干作,仅仅尝试围绕该领域搭建清雅的开源基础设施。咱们的中枢做事是提供计较资源,这如实是使用 GPU 的浅易进口,但咱们更着眼于永久发展。”
能否杀青限制化发展?
对于强化学习环境,现在尚未有定论的问题是:这项技艺能否像以往的 AI 磨砺圭表那样杀青限制化发展?
往常一年,强化学习鼓吹了 AI 领域多项紧要冲破,包括 OpenAI 的 o1 模子、Anthropic 的 Claude Opus 4 模子等。这些冲破好奇钦慕紧要,因为此前用于改革 AI 模子的圭表如今正显现出 “收益递减” 的趋势。
强化学习环境是 AI 实验室对强化学习技艺 “更大押注” 的一部分 —— 很多东说念主以为,跟着在该技艺中参加更多数据与计较资源,强化学习将捏续鼓吹 AI 高出。OpenAI 雅致 o1 模子的部分筹商东说念主员此前披露,该公司最初之是以投资 AI 推理模子(通过对强化学习和测试时计较的参加开荒而成),恰是因为他们以为这类模子具备清雅的限制化后劲。
现在,强化学习杀青限制化的最好旅途尚不解确,但强化学习环境似乎是颇具后劲的标的。与仅通过文本回答奖励聊天机器东说念主不同,强化学习环境能让智能体在模拟场景中操作用具、使用计较机完成任务 —— 这种方式诚然对资源的破钞远更高,但潜在的陈说也更大。
也有部分东说念主士对强化学习环境的发展出路捏怀疑格调。曾担任 Meta AI 筹商雅致东说念主、现辩论创立 General Reasoning 公司的罗斯・泰勒暗示,强化学习环境容易出现 “奖励舞弊”(reward hacking)状态 —— 即 AI 模子为取得奖励而 “舞弊”,并未真实完成任务。
“我以为东说念主们低估了环境限制化的难度,” 泰勒说,“即即是现在公开可用的最好(强化学习环境),若不进行大幅修改,经常也无法浮浅使用。”
OpenAI API 业务工程雅致东说念主舍温・吴(Sherwin Wu)在近期播客中暗示,他对强化学习环境领域的初创公司 “捏看空格调”。吴指出,该领域竞争相当强烈,且 AI 筹商发展速率极快,要为 AI 实验室提供优质做事难度很大。
卡帕西(手脚 Prime Intellect 的投资者,曾称强化学习环境可能成为冲破性技艺)也对统统这个词强化学习领域抒发了严慎格调。他在外交平台 X 的帖子中提议疑问:通过强化学习技艺,AI 还能杀青多猛进度的高出?
“我对环境与智能体交互捏乐不雅格调,但对强化学习本人捏悲不雅格调。” 卡帕西暗示。
海量资讯、精确解读,尽在新浪财经APP
株连剪辑:丁文武 九游体育娱乐网