米兰·(milan)中国官方网站-开放代码又如何?成本昂贵、资源集中,大规模语言模型的民主化越来越难

作者|Ben Dickson
编译|李梅
编纂|陈彩娴5月初,Meta发布了一个可以履行多个差别使命的年夜型语言模子:Open pretraining Transformer (OPT-175B)。于已往几年里,年夜型语言模子(large language model,LLM)已经经成为人工智能研究的热门之一。
于OpenAI发布包罗1750亿参数的深度神经收集GPT-3以后,就激发了一场LLM的「武备竞赛」,OPT-175B是这场竞赛的一个最新介入者。GPT-3已经经注解,LLM可以无需分外练习就能履行很多使命。厥后,微软将GPT-3集成到它的几个产物中,不仅展示了LLM于科学研究上的远景,也展示了LLM于贸易上的运用潜力。
而OPT-175B的并世无双性于在Meta对于「开放」的承诺,正如这个模子的名字(OpenXX)所表示的那样。Meta已经经向公家提供了这个模子,而且宣布了练习及成长历程中的年夜量细节。于Meta AI博客上发表的一篇文章中,Meta将OPT-175B的发布描写为「年夜范围语言模子的平易近主化拜候」(Democratizing access to large-scale language models)。
Meta这类朝着透明化标的目的的成长是值患上奖饰的。然而,于年夜型语言模子的激烈竞争下,平易近主化已经经变患上难以实现。
11750亿参数的OPT
Meta发布的OPT-175B有一些要害特性。它包括了预练习的模子以和需要练习及利用LLM的代码。练习神经收集比运行神经收集要耗损更多的计较资源,以是,对于在没有计较资源来练习模子的构造来讲,预练习模子尤其有效。经由过程削减练习年夜型神经收集所需的计较资源,它还有会有助在防止造成巨年夜的碳萍踪。
与GPT-3同样,OPT也有差别的范围,参数从1.25亿到1750亿不等,参数越多的模子进修能力越强。今朝,所有300亿参数和如下的版本均可以直接下载。完备的1750亿参数版本的模子将提供应部门研究职员及机构,只需要填写一张申请表。
Meta AI于博客上暗示:
“为了包管学术诚信及避免滥用,咱们将于非贸易许可下发布咱们的模子,以专注在研究用例。该模子将授权学术研究职员利用,与当局、平易近间社会及学术界有关的构造,以和世界各地的行业研究试验室。”除了了模子,Meta还有发布了一个完备的日记,提供了年夜型语言模子开发及练习历程的具体技能时间表。凡是来讲,经发表论文只包罗关在终极版本模子的信息。Meta暗示,该日记提供了一些有价值的信息,包括「用在练习OPT-175B的计较量,以和当底层基础举措措施或者练习历程自己于范围上变患上不不变时所需的人力开消」。
2Meta:GPT-3不敷透明
Meta于其博客文章中还有暗示,年夜型语言模子年夜多可以经由过程「付费API」来拜候,对于LLM的拜候举行约束「限定了研究职员去理解这些年夜型语言模子怎样事情以和为何能事情,拦阻进一步提高模子的鲁棒性及削减模子的成见及有害性等已经知问题」。
这是对于OpenAI的一种报复,OpenAI发布GPT-3只是提供了一种黑箱API办事,而不是将其模子的权重及源代码公然。OpenAI传播鼓吹没有公然GPT-3的缘故原由之一,是为了节制有害运用步伐的滥用及开发。
而Meta认为,经由过程将模子提供应更广泛的受众,会有益在研究及预防它们可能酿成的任何危险。
Meta如许描写他们所做的事情:
咱们但愿OPT-175B将为年夜型语言模子创立的前沿范畴带来更多的声音,帮忙社区配合设计卖力任的发布计谋,并为该范畴年夜型语言模子的开发增长史无前例的透明度及开放性。3年夜型语言模子的成本然而,需要留意的是,年夜型语言模子的「透明及开放」其实不等同在「平易近主化」。练习、配置及运行年夜型语言模子的成本仍旧很高,并且将来可能还有会继承增长。
按照Meta的博客文章,研究职员已经经乐成地年夜年夜降低了练习年夜型语言模子的成本。他们暗示,该模子的碳萍踪已经削减到GPT-3的七分之一。以前也有专家预计,GPT-3的培训成本高达2760万美元。
这申明,OPT-175B的培训成本仍旧高达数百万美元。幸运的是,预练习的模子将防止练习模子的需要,而且Meta暗示,将提供「只用16块NVIDIA V100 gpu」来举行练习及部署完备模子的代码库。这相称在一台Nvidia DGX-2,成本约为40万美元,对于在资金紧张的研究试验室或者单个的研究职员来讲,这仍不是一笔小数量。按照一篇提供了更多关在OPT-175B细节的论文显示,Meta利用了992块 80GB A100 gpu练习了本身的模子,比V100较着更快。
Meta AI的日记进一步证明,练习年夜型语言模子是一项很是繁杂的使命。OPT-175B的开发时间表上,满盈了诸如办事器瓦解、硬件妨碍及其他需要高级技能职员来解决的并发症。研究职员还有不能不屡次重启练习历程,调解超参数,转变丧失函数。所有这些孕育发生的分外用度,都是小型试验室所没法负担的。
4平易近主化的拦阻:权利集中于少数公司手中
语言模子如OPT及GPT都是基在transformer架构。transformer的要害特征之一,是它可以或许并行及年夜范围地处置惩罚年夜型挨次数据(如文本)。
最近几年来,研究职员已经经证实,经由过程于transformer架构中添加更多的层及参数,可以提高语言使命的体现。一些研究职员认为,到达更高的智力程度只是一个范围问题。是以,资金富余的研究试验室,如Meta AI、DeepMind (Alphabet旗下)及OpenAI(微软援助),都于致力在创立愈来愈年夜的神经收集,好比DeepMind最新推出了多模态AI体系Gato。
去年,微软及英伟达创立了一个价值5300亿参数的语言模子,名为Megatron-Turing (MT-NLG)。上个月,google引入了语言模子 Pathways Language Model (PaLM),这是一个包罗了5400亿参数的年夜范围语言模子。更有传言称,OpenAI将于将来几个月发布GPT-4。
然而,更年夜的神经收集也需要更多的财务及技能资源。虽然更年夜的语言模子会有更多新花梢(及新的掉败),但它们也会不成防止地把权利集中于少数富有的公司手中,这致使较小的研究试验室及自力的研究职员于年夜型语言模子的研究上越发艰巨。
于贸易方面,年夜型科技公司将拥有更年夜的上风。运行年夜型语言模子长短常昂贵及具备挑战性的。像google及微软如许的公司都有专门的办事器及处置惩罚器,以是他们能年夜范围运行这些模子并盈利。对于在较小的公司来讲,弄出一个自家版本的LLM(如GPT-3)的开消太年夜了。正如年夜大都企业都利用云托管办事而不是成立本身的办事器及数据中央同样,跟着年夜型语言模子变患上愈来愈风行,像GPT-3 API如许的开箱即用体系将会更具备吸引力。
而这反过来又会进一阵势将AI集中于年夜型科技公司手中。更多的人工智能研究试验室将不能不与年夜型科技公司互助,以得到研究资金。这将付与年夜型科技公司更年夜的权利来决议AI将来的研究标的目的(与他们的经济好处相一致的标的目的)。那些没有短时间投资回报的研究范畴,可能就会成为这此中的价钱。
一个底线是,当咱们庆祝Meta为LLM带来透明度的时辰不要健忘,年夜型语言模子的素质仍是不平易近主的,它们只是更多地对于宣传它们的公司有益。
原文链接:https://bdtechtalks.com/2022/05/16/opt-175b-large-language-models/
雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





