争渡大模型,颠覆将从何处开始?
人工智能底层思维的突破,关键在于对旧有逻辑和模式的一次超越。
囿于技术的局限,上一代 AI 商业落地只能聚焦于定制化的“点到点”服务,AI 生产力的释放有限,在算法和算力上卷无可卷的公司们,面临的是硬件成本与技术创新的边际效用递减。
而在 ChatGPT、GPT-4 等为代表掀起的浪潮中,大模型解决多项任务的通用表现,有效控制成本、提高收益,让人们看到了 AI 大规模落地的可行性,愈加彰显通用人工智能(AGI)的潜力。智能生产力得以释放,人类将进入到一个全新 AI 时代,就像工业革命一样,大模型会被各行各业广泛应用,带来生产力的巨大提升,并深刻改变我们的生活方式。
无论哪个行业、什么领域,大模型都是最火的话题,全新的起跑线上,大模型拉开 MaaS 时代序幕,任何人都想做点什么、也都可以做点什么。
为了汇聚全球顶级智慧,率先窥见 GPT 的未来发展图景,雷峰网联合新加坡 GAIR 研究院、世界科学出版社、科特勒咨询集团等机构,将于8月14日-15日在新加坡乌节大酒店,正式举办第七届 GAIR 全球人工智能与大会。
近日,雷峰网同黄学东、周伯文、何晓冬三位将出席 GAIR 2023 的大咖代表,围绕大模型新范式下的技术革新与落地进行了深度对话,经过与他们的讨论,我们更清晰地看见大模型所撼动的竞争格局变换、以及持续迭代的市场脉络。
黄学东,计算机领域首位中国大陆大学培养出来的美国双院院士,现任 Zoom CTO,曾任微软云与人工智能部首席 AI 技术官。
周伯文,清华大学电子工程系长聘教授、清华大学惠妍讲席教授。原 IBM Research 美国总部人工智能基础研究院院长,回国后曾任京东集团高级副总裁、集团技术委员会主席等职位。
何晓冬,京东集团副总裁、大模型负责人。由何晓冬带队完成的“Bottom-up and top-down attention”注意力机制,用于跨模态的语言和图像信息在语义层次的对齐研究。
以人为标杆的科技跃进中,我们期待大模型带来 AI 普惠,缩窄“智能”时代的技术鸿沟。雷峰网总结了三位大咖代表对于大模型相关问题的主要观点,分享如下:
1
一场大模型的起跑
以 ChatGPT 为起点,大模型技术研发和应用探索进入了新的阶段。据不完全统计,当前国内所发布的大模型产品已经超过 80 个,对应不同行业、不同应用场景,各个大厂和研究机构纷纷加入资源竞赛的大模型游戏,“百模大战”正如火如荼地进行。
雷峰网:去年 11 月,ChatGPT 在各行各业引起震动,谈谈各自对其的感受。
黄学东:OpenAI 所取得的历史性突破,是真正将 “Chat”这件事给做成了。过去,陆奇在微软的时候就曾强调了“Chat”的重要性,并提出了“Chat as service”概念,但受限于没有足够的突破性技术,因此也无法支持项目的落地。
周伯文:2002 年,诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考,快与慢》一书中将人的思考模式划分为两种:系统1和系统2。“系统1”是快思考、直觉判断;“系统2”指慢思考,需要完成大量的推理和计算。
人们过去认为 AI 更适合做“系统1”的工作,比如人脸识别、质检等。但我坚持认为,AI 的价值应在于“系统2”,即帮助人类更好地完成复杂的逻辑推理任务。
ChatGPT 的出现验证了 AI 在“系统2”层面的可行性,它意味着让 AI 去发现新知识,借助新知识帮助人类设计出更好的 AI,一个创造性飞轮就出现了。
何晓冬:在人工智能领域,形态创新并不重要,基础形态既定,如人机对话、文生图、文生视频等这些基础形态大家很早就畅想过,问题在于效果达不到,有一天效果达到了、才是一个大的飞跃。比如基于人机对话之上,可以做导购、推荐、营销、客服等衍生形态。但如果基础形态效果不到位,衍生形态更加不到位。
ChatGPT 也一样,人机对话这件事并不新鲜,大家之所以对 ChatGPT 觉得惊艳,它的效果是有目共睹的。
雷峰网:追溯大模型的源头,离不开论文“Attention is All You Need”和 Transformer,它具体有哪些创新之处?
周伯文:Transformer 的核心亮点,是自注意力机制和多头机制。2017 年 6 月,谷歌大脑团队在“Attention is All You Need”中引入了自注意力机制和 Transformer 的概念,解决了模型长距离记忆的问题。OpenAI 受这篇论文影响颇深,在其出现第二天便立刻转向 Transformer 架构。
GPT 与 BERT 有着很大的不同:BERT 采用了既使用了从左到右的信息,也使用了从右到左的信息,即用未来信息去帮助模型学习如何表征,但 GPT 坚持的是基于过去的信息预测下一个词是什么,用更多数据对模型进行更充分的训练时,AGI 的可能性出现了。
可以说我们今天所看到的模型中有个“T”时,它大概率代表了 Transformer 。
何晓冬:现阶段虽然语言模态的飞跃实现了,但视觉还没有完全起来。以一个模态带动各种模态涌现是目前大家都在探索的方向。许多人拿“视觉+语言”来做,一方面是因为这部分数据比较多,另一方面则是因为视觉和语言最重要。因此,如果这个方向能成功,最终不仅是视觉和语言,还能提供很多洞察——怎样做跨模态、多模态的涌现。
这个过程中,会不会用 Transformer 架构也是一个未知数,不一定用 Transformer,但也可能跟 Transformer 相关。只是现在还没看到,需要等待,但基础性工作已经在探索了。
雷峰网:如何看待 GPT 带来了以自然语言为基础的人同机器的交互方式?
何晓冬:GPT-4 相比 GPT-3,其最大的创新在于对话,还不是在多模态层次。
GPT-4 在语言模型上、在知识上做得更深了。有人对比过,例如面对同样的问题,GPT-4 的正确率比 GPT-3.5 要好很多,GPT-3 的效果则差得更远,因为 GPT-3 并不具备对话能力,只有生成,对问题各方面的感知、意图理解等做得并不好。现在 GPT-4 已经可以直接询问多个问题,且通过多轮对话、它得以持续记住过去的历史。
周伯文:AI 的本质就是与人类的协同和交互,它从交互中不断学习,进而协同人类更好的解决问题。
生成式 AI 大爆发之后,通过与人协同交互进行学习的 AI 会越来越强。AI 更好地发现新知识,新知识继而设计出更好的 AI 系统,形成一个良性循环,这种相互促进的关系要求 AI 和人类的协同方式必须转变。
此前我也提出了“3+1”研究方向,即以可信赖AI为研究基底和长期目标,以多模态表征交互、人机协同演绎、环境协同演化为研究着力点,核心在于人机的协同共创,实现人类帮助 AI 创新、AI 帮助人类创新的目标。
2
追求创新,而非复制方法论
2014 年纳德拉成为新一任微软 CEO 后,立即提出了“移动为先,云为先”(Mobile First,Cloud First)的战略,微软将业务重心转向企业服务市场,集中所有力量向云端转型,这为后续微软云接入 ChatGPT 打下了根基。
2018 年,云智一体的融合在微软内部进一步加深,黄学东、Yu-Ting Kuo 等资深副总裁级别的科学家以及相关团队,从沈向洋旗下调任到微软云体系。不久后,这支由 Joseph Sirosh 带领的小分队也重新被收编至微软云体系,云和 AI 进一步融合,微软云更名微软云与人工智能事业部,在组织上真正实现了云与智能的一体化。
此外后,微软在云的销售业绩、AI 商业影响力等各方面均呈现逐年上涨态势。2019 年微软以 10 亿美元投资 OpenAI 后,Azure 也成为了 OpenAI 的独家云服务商。
雷峰网:为什么这件事发生在了 OpneAI?跟微软给了 OpenAI 一大笔投资有关吗?
黄学东:2015 年左右我还在 Bing 期间,做了一个名为 Xcode 的超级大模型,但由于当时没有 GPU,Deep Learning 也还不够 deep,即便 Xcode 占用了 Bing 80% 的计算资源仍没有跑出来。这证明大模型没有 GPU 根本玩不转。
OpenAI 如今最显著的特征就是“大”,太大便不好处理,一般人把握不住。这也是 OpenAI 和微软云能取得瞩目成功的原因。
Azure 云平台是 OpenAI 的独家云供应,虽然最大的成就与荣誉应该给 OpenAI,但 Azure AI 是 Harry 和我分别推动孵化与负责产品上市的,直至今天 Azure AI 是我的团队做出来的,我很自豪。更自豪的是,Azure AI 今年开始赚钱了,而去年这个项目还是亏钱的状态。可以说,OpenAI 成功背后的确与微软给予的巨额资金支持有关。
与此同时我们也更要看到,OpenAI 里面的人有理想,工程化能力十分强大,这是非常重要的因素。
何晓冬:2016 年,我和团队推出了一个名为 CaptionBot 的 AI 产品,发布后仅一星期用户量就突破百万。当时我们走的过程跟 ChatGPT 特别像:先有篇论文发表,紧接着做一个公众可用的产品,把它发布出来。
论文往往是在一个有局限的学术数据里,通用性存在不足,如果希望它走得更远,最好的办法就是以一个新形态、打造一个产品,对全世界通用。这产品可能很粗糙,但只要大家觉得有意思、有用,很快就能形成爆品。通过用户使用的数据可以用于进一步提升算法、模型,随之进入第三个阶段、即严肃的产品使用阶段。
这“三步走”我们在七年前走过,但当初走得有点慢,最终没能达到一定的服务规模,是今天我感觉有点遗憾的地方。现在微软快多了,去年底 ChatGPT 出来,仅半年时间 GPT 就全面进入微软各大核心产品线。
这次 OpenAI 展现了一个新趋势,即是产品和技术研究、技术创新是不分家的。
周伯文:OpenAI 的成功由多方面因素共同成就,有 Ilya Sutskever 做技术判断、Greg Brockman 做功能、Sam Altman来整合资源,包括 AI 对伦理、社会影响等研究他们都做了。以数据维度来看,为什么 OpenAI 选择 Github 程序语言去训练思维链?因为程序语言的语义、语法极其简单,执行过程的逻辑严谨。这表现了 OpenAI 的一个特质和优势:不会盲目出击。
此外,OpenAI 在商业打法上也具有代表性,包括生态建立、宣布新摩尔定律、API 降价 90% 等等,既引发广泛关注,又能扩展资本和用户对大模型商业化应用的想象空间,衍生出几近无限的应用场景。
3
从场景中来,到产品里去
一项技术创新带来的变革要深入各行各业,离不开其底层的通用性、能实现自动化生产的能力,而现实的情况是,基础大模型在满足细分场景下的特定需求上正显示出“牛刀小用”的短板,面临着准确率相对较低、能力表现不匹配等情况。
业界对大模型的需求井喷,该如何应用、从哪些角度来落地,是 AI 接下来发展的重要方向。
雷峰网:一个客观事实是,即使在语言大模型上,中国多个大模型产品的智能水平跟国外也仍有一定差距。
黄学东:早晚都会做出来,但需要时间,成败都在细节里面。
何晓冬:ChatGPT 确实很厉害,但其厉害之处在于它的广度上,而非深度。例如金融领域项目无法直接用 ChatGPT 来解决问题,需要与行业 Know-How 相结合,并经过实战磨练。
今天的 ChatGPT 已经不再考虑图灵测试,它甚至会告诉你:“我是个语言模型,你有什么要问的?”它不需要欺骗人,因为它知道即便我是一个机器、你也会跟我对话,这就是技术进步的一个重要体现,也是其开始变成生产力的一个重要体现。
周伯文:对任何一个创业团队而言,在具备大模型的通用技术后、能否培养出更专业的能力十分重要。目前 GPT 的突破主要在通用性,但对特定行业和领域的价值还有待开发。比如购物场景中,我在京东期间就看到了用 AI 做消费者需求和产品设计动态匹配的巨大商机,到 2021 年我决定离职创业,做垂直行业的通用大语言模型,将消费者所有行为从非特定场景中 cover 进来。
我们需要有一个具备专业能力的大模型,让消费者更容易找到、也更愿意购买所需的商品,这可能会彻底改变人们现有的购物路径。
雷峰网:从产品或场景应用的角度来看,大模型落地的难度在哪里?
周伯文:以消费场景为例,不同购物行为的符号背后,是消费者复杂的情感、体验以及对产品的选择逻辑,这正是企业需要的宝贵信息。
比如消费者需要很多专业的词汇才能找到所需的商品;另一侧的商家却不懂消费者的真实需求,只能通过电商交易触达消费者、或是求助调研机构。可以看到,需求侧和供给侧其实是有很强的对应关系。但过去企划、营销、销售的从业者都只搞明白了各自的环节,有大模型之后,AI 能将所有业务链条打通。
核心的难题在于,我们如何将这些信息全部高保真、压缩到一个通用模型中,并基于该大模型赋能企业生产全周期。如此一来,企业能更高效地发现机会,更具创意地设计生产,更有效地营销推广、触达用户并完成转化。
何晓冬:计算机作为典型的应用科学,很多重要的课题是在应用中被反向牵引,因为大量的应用需求,从而促生更多变量和经验体系的发展。令大模型的研究离落地更近,对科学而言是一种促进、而非限制。
以多模态大模型为例来讨论落地,在模型的可控性上、特别是对细节的理解和可控,这一块是我认为比较重要的。比如 Midjourney 画图,虽然比自己画的要好,可能整体表现很好,但在刻画手指等细节上还不够好,往往需要生成很多张、从当中挑出一张,还是有这个过程。
雷峰网:如何看待大模型接下来的发展趋势?
黄学东:在我看来,语音交互会是人类的未来。
从历史维度来讲 ,IBM 是做语音最早的公司,自 50 年代开始做机器翻译,70 年代用语言模型进行语音研究,但由于模型不够大,识读能力有限,后来 IBM 内部将做语音的方法应用至机器翻译、改写了历史。所谓机器翻译,就是将问题翻译成结果、将过去已有事实转变为对未来的预测(history to future)。
GPT 是语音交互,我对 Siri 也有期待,以及亚马逊做的智能音箱、其实也非常有远见,可惜亚马逊对 AI 的认识不够。微软小冰一开始也应该做成大模型,但这需要算力、产品、工程化等能力,很讲究工艺。
正如今天大家都知道 GPT 的底层是 Transformer,但最后不一定每家都能把东西做出来。
周伯文:未来,哪些定义明确、高价值的工作流程将由专业 AI 模型完成。通用大模型在某一场景成功后再提升其基础能力就很容易,从垂直场景切入,过去我们所积累的算力、数据、算法方面也能更充分地发挥作用。
因此我们认为,大模型在底层框架上必须有通用大模型的基础能力,有科学的方法评估,同时还需要专业的训练。
何晓冬:当我们说通用人工智能时,往往是以人为标杆的,我们希望所有的产品为人而服务,在未来所有的 AGI 蓝图里,人是一个核心存在,而不是被边缘化,如果人被边缘化,那么这个世界对人类没意义。
这个过程中,多模态既是一个路径,也是一个要求。一个路径是指,人被视为这个世界上最聪明的智能体,如果想打造一个像人一样聪明的 AGI ,就需要向人学习,以多模态方式来进行知识融合、知识获取。另一方面,多模态可能也是个要求,未来人跟机器打交道必然是通过语言、视觉、语音跟机器沟通的,所以机器也必须能够理解相应的信息,否则就无法服务人。
今天,多模态大模型的 ChatGPT 时刻还没到来,可能还需要点时间,或者需要更多的数据、创新的算法,暂时还没有爆发。
ChatGPT 带火了大模型,使 AGI 成为可能。技术与商业演进交织,变革将至未至,如何穿过迷雾、寻找 AI 大模型技术创新和产业落地的最佳路径?
8月14-15日,来第七届 GAIR 全球人工智能与机器人大会,见证最为激荡的思想碰撞。
这是国内首个出海的AI顶级论坛,也是中国人工智能影响力的一次溢出。
福利票上线,免费抢3000元/张的大会通票
关于GAIR全球人工智能与机器人大会
GAIR创立于2016年,由鹏城实验室主任高文院士、香港中文大学(深圳)校长徐扬生院士、珠海大数据研究院朱晓蕊、雷峰网创始人林军等人联合发起,原广东省省长马兴瑞等领导参与指导。
历届大会邀请了多位图灵奖、诺贝尔奖得主、40位院士、30位人工智能国际顶会主席、100多位 Fellow,同时也有500多位知名企业领袖和100多位知名投资人。与上海WAIC(世界人工智能大会)、北京智源大会,构成了中国最具国际影响力的三大智能产业论坛矩阵,更是在粤港澳大湾区有着首屈一指的政、企、学、投四界的号召力和风向推动力。