大的技术周期中,可能有无数个这样的小周
期。
记者/王杰夫 编辑/吴洋洋 美编/车玲玲
在冬季到来前,大模型领域的创业者们终于等来了OpenAI的新模型。
9月13日,OpenAI发布新一代语言模型o1。这款模型不属于GPT系列,而是采用了全新的命名方式,官方对此的解释是:“对于复杂的推理任务来说,这是一次重大进步,代表了AI能力的一个新水平。因此,我们将计数器重置为1,并将这个模型系列命名为OpenAI
o1。”
为了展现o1模型的推理能力,OpenAI列出了它在AIME、Codeforces、GPQA这3个美国著名竞赛(涵盖数学、计算机、物理、化学、生物等)中的考试成绩,正确率基本都在80%以上,不仅远超GPT-4o模型的表现(GPT-4o在这些考试中的准确率最低只有11%,最高也不过56%),甚至也超过人类博士的平均水平。不过,知名数学家、同时也是ChatGPT资深使用者的陶哲轩在第一时间试用o1后表示,这是一个“水平一般但不算太无能的研究生”。
推理能力提升的关键是让模型像人一样“慢思考”。这个词汇来源于2002年诺贝尔经济学奖得主丹尼尔·卡尼曼的畅销书《思考,快与慢》,他将人类大脑区分为两种工作状态,一种是直觉性和联想性较强的“快思考”,另一种就是严谨性和逻辑性更强的“慢思考”。
为了实现这一点,OpenAI在o1的训练中引入了一种名为“思维链”(Chain
of Thought,CoT)的方案,即把一个复杂的问题拆解为若干子问题并逐步推理,之后再利用强化学习(RL)遴选出最优的“思维链”。最终OpenAI成功在基座模型能力并没有突破性进展的背景下,使o1模型推理方面的能力提升了一大截。代价也是显而易见的,在回答相同问题时,o1模型要比GPT-4占用更多资源,反映在用户侧就是模型更贵且回答速度更慢。
事实上,o1模型可以看作是基座模型GPT-4的特化版本,就像GPT-4o那样,只不过GPT-4o特化的方向是多模态,o1特化的方向则是复杂推理。有研究发现,GPT-4o在推理方面弱于GPT-4,但在文本表达和情感拟人方面能力更强;o1虽然推理能力很强,在文本能力上却弱于GPT-4。它们就像是两个偏科生,只不过一个偏文科,一个偏理科。想要提高这两个偏科生成绩的下限,最根本的方法仍然是提升基座模型的能力,这也是为何从今年年初起关于GPT-5何时到来的猜测就从未停歇。
公允地说,OpenAI更新模型的频率并不慢。从2018年发布GPT-1至今,这家创业公司已经发布了7款语言模型。问题在于,回看这拨AI浪潮发生以来的时间线会发现,基座模型的能力在此期间几乎没有提升——GPT-4早在2023年3月就已经正式发布,9月推出的GPT-4V是在兑现3月的承诺,11月的GPT
Store与GPTs是产品层面的改进,今年发布的两款新模型目前看来也只是GPT-4的特化版。
与停滞不前的模型能力相对应的是OpenAI快速膨胀的融资金额与估值,同一时间段内,这家非营利实体的估值从约280亿美元上升到860亿美元,并且有消息称,它最近正在以1500亿美元估值寻求新一轮融资,意向投资者除了老面孔微软与Thrive
Capital,苹果和英伟达也表露出兴趣。
钱或许烧不出下一代大模型,但没有钱是万万不能的。除了OpenAI,其余大模型创业公司与风险投资的蜜月期已经仓促结束。雇佣收购(Acquihire)成为这半年来硅谷AI创投圈的热门词汇,案例包括微软对Inflection、亚马逊对Adept
AI和Covariant,以及Google对Character
AI——大公司们不再收购公司,只将创业公司的核心技术团队挖走。
这背后的逻辑并不复杂,现阶段的模型的能力还不足以培育出超级应用,这些模型创业公司目前构建出来的产品并不具有长期价值。对于大公司来说,积累人才以保持基座模型的领先更为重要;对于创业公司来说,更关键的是如何活下去。就在9月初,累积融资约5亿美元、号称欧洲OpenAI的德国AI创业公司Aleph
Alpha宣告退出基础模型竞争。累计融资额都在10亿美元左右的中国大模型创业公司近期也都传出了战略收缩的消息。
基础模型方面的能力瓶颈除了让大模型公司赚不到足够的钱养活自己,也使得AI硬件的繁荣仍然处于空谈。
9月10日,苹果与华为在同一天推出了各自最新的旗舰手机。其中苹果i
Phone最重要的卖点是由大模型支持的AppleIntelligence(苹果智能)。相比几个月前W
W D C上侧重底层技术的演示,这一次苹果展示了更多的实际用例,比如AppleIntelligence可以智能地总结邮件中的重要信息并显示在摘要中,或者在聊天中实时生成适应当下语境的emoji。
苹果并非这拨AI浪潮中第一个将大模型植入手机的公司,但从目前的用户体验来看,苹果垂直整合软硬件并交付的能力还是一流的。在大部分手机厂商只是生硬地把语言模型接入手机助手时,苹果将模型埋到更底层的位置,通过阅读用户屏幕,Apple
Intelligence能够理解用户使用手机时当下的复杂语境并提供个性化服务。
不过即使苹果已经将AppleIntelligence打磨到这个地步,对于大部分用户来说,硬件上的改变才是更加重要的。除了增加了一个拍照按钮,iPhone
16在外观上与上一代手机几乎一样,导致其产品遭受了可能是有史以来最为严厉的“缺乏创新”的批评。知名苹果分析师郭明錤称,新手机发布后的首周末销量相较iPhone
15系列同比减少12.7%。
作为对比,华为同日发布的三折叠屏手机Mate
XT吸引了大量关注,即使华为将起售价定在19999元,依然一机难求。这也从侧面反映出,用户对于新鲜硬件形态的兴趣远远超过对AI功能的兴趣,这或许也是大公司们执着于创造AI硬件的缘故。有消息称,字节跳动正在加速自研AI硬件,第一款产品将是搭载了豆包大模型的智能耳机。
新皮层
本专栏由《新皮层NewNewThing》两位编辑吴洋洋与王杰夫轮流主持。
“新皮层NewNewThing”为《第一财经》YiMagazine旗下关注智能领域的新媒体IP。
未经允许不得转载:盒子书格 » 大模型的秋天来了吗?