2016年,AlphaGo击败职业围棋冠军李世石,勾起了所有人对人工智能的热望。
时隔6年,OpenAI发布通用型对话机器人ChatGPT,以超出预期的表现,开启了新一轮AI热潮。
距ChatGPT发布不到3个月,国内外厂商纷纷发声,有的宣称已掌握ChatGPT相关的大语言模型技术,有的宣布将推出类ChatGPT产品。谁将打造出中国的大语言模型,成为一个极其热闹的话题。
实事求是地说,AI行业自2016年以来,从极尽繁荣到资本退潮,再到历经数年低谷,已经历一轮“过山车”式的发展。在这一过程中,清晰而见的是,AI行业的比拼,比的不是谁的“调门高”,也不是谁更会“炒热点”,而是谁有“真本事”。
毫无疑问,百度在人工智能领域是跑在最前列的那个。日前,百度对外宣布,其打造的文心一言将在2023年3月正式上线。然而在中国,腾讯、阿里、京东、科大讯飞等无数厂商都在进军AI领域,为什么百度能够做出与ChatGPT同属于大语言模型技术范畴的文心一言?
大语言模型的艰难进阶
如果用一个词形容大语言模型的诞生与迭代,那就是“艰难”。
2016年前,人工智能理解人类语言的主流技术是采用小模型处理某个具体任务,如下围棋、机器翻译等。这一阶段,人工智能既无法胜任多种任务,也需要面对海量的数据标注难题。
为了改变发展瓶颈,人工智能领域亟需优质模型替代传统模式。几乎同一时期,国内外AI科技企业纷纷加入了AI大模型的探索,在国内,百度站在AI行业的最前端,率先推出知识增强语义理解模型文心ERNIE,而在国外,OpenAI则基于Transform模型,推出了生成式预训练语言模型GPT-1。
全新的AI大模型不再需要进行繁重的人工数据标注,经过参数的微调,也可执行生成文章、代码、机器翻译、问答等各种通用任务。
但此时,新的难题又出现了。一方面是模型参数量剧增,比如GPT-1参数量飙升到1.17亿,2019年推出的GPT-2参数量为15亿,而到2020年的GPT-3参数量已高达1750亿;而百度文心ERNIE最初的参数量约1亿,迭代到文心ERNIE 3.0 Titan时也已飙升至2600亿。
另一方面,AI大模型的深度学习与持续学习则是另一道难关,要让机器理解人类的不同指令,生成高质量答案,处理更多通用任务,甚至在与人类的互动中,可持续回答用户的问题,也可以质疑和拒绝不适当的问题,这就需要模型上的不断优化。
2022年,OpenAI将GPT-3升级至GPT-3.5,除了增大参数量之外,又引入了人工数据标注,以及采用人类反馈强化学习(RLHF),不断地与ChatGPT聊天,生成答案与反馈答案质量进行模型优化。
而百度文心ERNIE则沿用了海量无监督文本与大规模知识图谱的平行预训练算法及兼顾语言理解与语言生成的统一预训练框架,在此基础上,加入了可控学习和可信学习算法。同时,百度还首创了大模型在线蒸馏技术,使其可在若干个学生模型中同时训练,既压缩了参数规模,也进一步提升AI大模型执行任务的准确性。
透过ChatGPT与百度文心ERNIE的进阶不难发现,要做出大语言模型,“入场券”的价格其实巨高无比。
一来,大模型飙升的参数量,意味着入局者必须具备坚实的算法、算力、数据支撑能力和充裕的资金投入。以ChatGPT来说,其每日需消耗的总算力约3640P,预训练数据量45TB,一次性的训练费用便高达8.4亿美元。
二来,技术门槛同样不可小觑。要做出大语言模型,仅仅具备单种AI能力远远不够,自然语言处理(NLP)、模型优化技术、搜索技术等等,同样不可或缺。对绝大多数AI科技公司而言,无论是算法、算力和数据支撑能力,还是资金实力,亦或者是技术能力,都是难以承受之重。
百度凭何做出文心一言
既然大模型的研发与迭代如此之难,为什么百度可以做出“文心一言”?这得益于百度在AI领域长期的战略定力,由此造就其综合性的AI实力。
早在2013年,百度CEO李彦宏便对AI的想象空间充满信心。彼时,百度深度学习研究院落地,正式开启了漫长的AI征程。
在过去十年中,百度在AI领域一直保持着持续的压强式、马拉松式的投入,累计投入资金超过1000亿。长期的投入,带来量变到质变的飞跃,百度从芯片层到框架层,从模型到应用层,进行AI全栈技术布局,沉淀技术的综合优势。
从模型层来说,百度早在2019年就已经推出知识增强语义理解模型文心ERNIE,并登顶刷新了全球权威数据集GLUE榜单。2019年以来,ERNIE模型历经多次迭代,已进化至文心ERNIE 3.0 Zeus,其参数量高达2600亿,比GPT-3的1750亿还高,成为全球最大的中文单体模型。
更大的参数量,通常意味着AI大模型的功能更齐全,匹配结果更精准。正因如此,文心ERNIE 3.0 Zeus支持多种自然语言理解与生成式AI,且学习、理解、生成任务效果也处在业界前列。
在自然语言处理领域,百度作为中国最拔尖的企业,几乎没有任何一家公司可以看见它的尾灯。随着文心ERNIE的不断迭代,自然语言处理技术与AI大模型搭配,可以充分提升人工智能与自然语言的交互能力,让机器变得更聪明,这也正是百度能够做出文心一言的关键原因之一。
当然,文心ERNIE模型的运转,需要算力、算法和数据等基础能力加持。在中金互联网行业首席分析师白洋看来,百度在AI三要素——算法、算力和数据方面都拥有领先优势。
在算力和算法上,百度目前拥有阳泉、徐水、定兴三个云计算中心。以阳泉智能云数据中心来说,其一期项目承载的服务器就达到了16万台,项目完全建成后,可承载24万台服务器,由此为文心ERNIE提供大模型运行的底座能力。
在数据上,百度作为扎根中文语境下的搜索巨头,历来是“更懂中文”的企业,而对中文与中国文化更透彻的理解,使文心NRNIE模型的预训练,更能结合中文搜索的真实数据与用户需求理解进行,从而造就其更适合中文与中国市场的特色。
也就是说,百度不仅能够做出类ChatGPT产品,其打造的文心一言更有望对前者实现局部超越。如在搜索上,百度基于真实数据与用户需求理解的优势,能够让文心一言的检索增强提升时效性和准确性;文心ERNIE模型知识增强大模型的属性,也可以使其基于知识增强,提升多轮推理对话;而本土化AI大模型的特点,则注定了文心ERNIE模型拥有适配国人需求的先发优势。
技术能力与基础设施之外,百度在AI领域的长期探索,底气在于其业务的健康与充裕的研发资金储备。根据百度2022年财报显示,其营收达1236.75亿元,归母净利润同比增长10%达到206.8亿元,Q4营收330.77亿元,归母净利润更是同比大涨32%,达到53.71亿元,增长态势极其明确。基于此,百度2022年投入214.16亿元进行核心技术研发,占到了百度核心收入的22.4%。
AI大模型的探索,可以说是一场漫漫长征。在这场征途中,科技企业需要保持坚定的战略定力,也需要保持多维度综合实力。
中文互联网开启“二次增长”
近年来,互联网流量见顶已是明显趋势。国家统计局数据显示,2022年3月移动互联网用户已达到11.83亿,基本接近饱和状态。AI大模型的大规模应用,为互联网的“二次增长”注入了一剂“强心针”。
对传统搜索引擎而言,大语言模型的出现,是一次颠覆式的创新。它改变的既是搜索方式与呈现形式,还有AI生成的内容模式,用户只需用自然语言交互即可获得精准答案,或者产出AI原创内容,这都将带来全新的搜索体验与效率提升。
除此之外,大语言模型在办公、云计算、智能驾驶等多种场景中应用,也有望助推这些行业的转型升级,激发其增长潜力。比如微软在Office、Teams等方面,正在整合引入OpenAI的技术,目标指向的便是办公场景的升级。
面对OpenAI与微软的来势汹汹,谷歌不得不紧急迎战,因为两者在搜索业务、AI领域等多个层面是直接竞争对手。而谷歌推出基于其人工智能技术的聊天机器人Bard,也被视为是在拉响“红色警报”。
然而,在太平洋的另一端,百度与谷歌的处境其实截然不同,它更像是受益者角色,而非被挑战者。一方面,百度一直是国内AI领域的龙头,经过十余年的AI全栈布局,如今其在AI各个领域都打造出关键自研技术,如最底层的芯片“昆仑”,深度学习框架“飞桨”,预训练大模型文心ERNIE模型等。
另一方面,作为国内搜索巨头,百度天然具备AI大模型最好的商业应用场景——搜索。未来,百度的文心一言将率先接入百度搜索中,为用户提供更准确、更高时效性的搜索服务与智能生成服务。
对此,李彦宏信心十足称,“技术已经到了临界点,类似ChatGPT这样的技术如何运用在搜索场景上,未来一年,在这方面我们非常有机会”。
而在更多AI应用场景中,百度也提出要基于“AI大底座”,赋能千行万业的发展。在云服务方面,百度的文心一言与百度智能云结合,假设某个行业需要AI知识图谱,便可以通过AI与云技术的耦合实现快速调用。
在智能驾驶上,百度将文心一言与产业结合,也将带来极为可观的体验与效率提升。比如当文心一言应用于汽车的智能语音助手,就有望实现更自然的语音对话体验,应用到智能驾驶系统,则有望提升语音指令识别,提升驾驶的安全性与乐趣性。
此外,百度还将把文心一言作为平台对外对外开放,供第三方开发应用。目前来看,包括吉利汽车、红网、每日经济新闻等超过400家互联网、媒体、金融、保险、汽车、企业软件等行业的头部企业已接入文心一言,多元化的AI生态体系已初见雏形。
事实上,在人工智能领域,百度的增长一直颇为稳健。从其财报数据来看,2022年Q3,百度非广告收入已经达到65亿元,同比增长25%,而这恰是得益于百度智能云与AI业务的驱动。
如今,AI产业方面,百度智能云已连续四年占据AI公有云市场第一;AI出行上,百度旗下的萝卜快跑稳居全球最大自动驾驶出行服务提供商,后者累计订单量超过200万单,Q4累计订单量56.1万单,更是猛增162%;而在AI生活上,百度App12月月活用户再创新高,达到了6.48亿。种种迹象都表明,百度在人工智能领域正在结出商业化硕果。
而随着文心一言的即将亮相,百度的增长潜力更是被诸多券商一致看涨。美银证券指出,百度文心ERNIE与ChatGPT特质相似,是自然语言处理、计算机视觉、机器学习、知识图谱等多种AI能力的结合与融合。
麦格理认为,百度可见的上行惊喜是将推出类ChatGPT的文心一言,并预计其2023年经调整经营利润率将提高2.4个百分点至18.3%。
业绩上的增长预期之外,当我们抽身看向更高的层面会发现,百度文心一言的出现,还有其更为深远的时代意义。
经历十余年的产业竞速,人工智能行业其实已经来到了“拐点”时刻。而作为中国人工智能领域的代表,百度打造出的文心一言,不仅将重新定义搜索入口,“引领搜索体验的代际变革”,也将为更多人带来模式创新的契机,以AI助力互联网打开全新的想象空间,成为助推千行万业向上增长的“助燃剂”。
电科技(www.diankeji.com)是一家专注于全球TMT行业的领先资讯媒体。
作为今日头条青云计划、百家号百+计划获得者,2019百度数码年度作者、百家号科技领域最具人气作者、2019搜狗科技文化作者、2021百家号季度影响力创作者,曾荣获2013搜狐最佳行业媒体人、2015中国新媒体创业大赛北京赛季军、 2015年度光芒体验大奖、2015中国新媒体创业大赛总决赛季军、2018百度动态年度实力红人等诸多大奖。
投稿、商务合作请联络微信公众号
声明:本站原创文章文字版权归电科技所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表电科技立场,图文版权归原作者所有。如有侵权,请联系我们删除。