PG电子中邦工程院院士郑纬民:做好十个软件改观基于邦产AI芯片的体例生态

 

  ◎4月28日,中邦转移2024算力汇集大会正在姑苏开张。《逐日经济讯息》记者正在现场提神到,会上,中邦工程院院士郑纬民提到,目前有三类体例可赞成大模子锻练。基于英伟达GPU的体例一卡难求;基于邦产AI芯片的体例仍面对邦产卡操纵不敷、生态体例有待革新的题目,可通过十个软件来举办革新;基于超等估量机的体例,可正在做好软硬件协同安排的状况下实行大模子锻练,但需正在超算机械尚未饱和的条件下操作。

  4月28日,中邦转移2024算力汇集大会正在姑苏开张。《逐日经济讯息》记者正在现场提神到,会上,中邦工程院院士郑纬民提到,目前有三类体例可赞成大模子锻练。

  此中,基于英伟达GPU的体例一卡难求;基于邦产AI芯片的体例仍面对邦产卡操纵不敷、生态体例有待革新的题目,可通过十个软件来举办革新;基于超等估量机的体例,可正在做好软硬件协同安排的状况下实行大模子锻练,但需正在超算机械尚未饱和的条件下操作。团体来看,尽量打制邦产A1卡的万卡大模子锻练平台难度不小,但非常需要。

  郑纬民提出,近两年来人工智能的成长导致算力需求呈产生性增进,此中模子研发需求配套算力;模子锻练需求海量算力,如锻练GPT-4需求一万块英伟达A100芯片跑上11个月;模子精调需求可控算力;模子推理需求牢靠算力,算力存正在于大模子人命周期的每一环。

  然而,海量算力背后有一个很实际的题目:贵。依照郑纬民估量,正在大模子锻练的历程中,70%的开销要花正在算力上;推理历程中95%的花费也是正在算力上,人工智能财产算力本钱居高不下。

  郑纬民进一步指出,要修筑基于邦产AI卡的万卡大模子锻练平台,需求商酌到几个题目。开始是半精度运算本能与双精度运算本能的均衡题目。郑纬民夸大,正在安排历程中,不单要商酌半精度运算本能,还要商酌双精度运算才气,双精度与半精度运算本能之比为1∶501∶100为宜。“无论是本身做仍然买,第一件事务即是问比例是众少。”

  郑纬民讲明称,万卡体例中的万块卡不行分袂正在各地PG电子,将其维系起来即是所谓的汇集。但维系也很有“考究”,每块卡之间能实行直连是最好的状况。但如许一来,每块AI卡都需插上9999块维系卡,一万块AI芯片均要实行直连,所需的维系卡数目过度宏伟,本钱乃至还要高过万块卡自身。另外,即使资金满盈,卡槽数目也无法餍足需求。于是,汇集安排不行只针对CNN算法,还需商酌极大范畴预锻练模子对体例的需求。大范畴预锻练模子需求高带宽低延迟汇集,赞成数据并行,模子并行和专家平行形式。

  第三点是系统组织感知的内存均衡安排。郑纬民夸大,一方面拜望内存的要求使汇集堵塞,消浸含糊量,反应到操纵秩序上展现为访存本能明显低落;另一方面,众个拜望内存的要求或者拜望统一存控对应的内存空间,负载不均,存控需求依次惩罚访存要求。

  第四点是IO子体例均衡安排。郑纬民进一步讲明称,万卡体例中负载的芯片数目太大,即使是英伟达芯片,也基础会正在三小时操纵产生一次纰谬。过去,为担保锻练不被停止,大模子锻练厂商平时采用间隔一段时刻,如2.5小时对数据举办一次保全或挪动,一朝产生纰谬能够不必从0下手,可正在保全职位无间推行。

  然而,大模子锻练数目过大,很难沿用上述操作形式。于是,万卡体例除了赞成查验点操作,还需扩张SSD(固态硬盘)。此外,体例的当地NVMe SSD仅通过当地文献体例拜望,范围了其操纵限制,需将每台供职器上的急迅当地NVMe整合为操纵可睹的整体分散式文献体例。

  郑纬民分解指出,目前来看,赞成大模子锻练有三类体例,辞别为基于英伟达GPU的体例、基于邦产AI芯片的体例和基于超等估量机的体例。此中,基于英伟达公司GPU的体例硬件本能和编程生态好,但受到禁售影响,加之价钱暴涨,一卡难求。而基于邦产AI芯片的体例,尽量近年来邦内二十余家芯片公司获得了很大的提高,但仍面对邦产卡操纵不敷、生态体例有待革新的题目。

  郑纬民直言,要革新基于邦产AI芯片的体例生态,这一题目实在并不“空洞”,需求做好十个软件。

  第一是编程框架应进一步消浸编写人工智能模子的纷乱度;诈骗基础算子急迅修筑人工智能模子,如PyTorch、TensorFlow。

  第二是并行加快,为众机众卡境遇供应人工智能模子并行锻练的才气;赞成数据并行、模子并行、流水线并行、张量并行等,如微软的DeepSpeed、英伟达Megatron-LM。

  第三是通讯库要供应跨机跨卡的通讯才气;可赞成人工智能模子锻练所需百般通讯形式;可依照底层汇集特质充裕诈骗汇集通讯带宽,如英伟达的NCCL库、超算众数赞成的MPI通讯库。

  第四是算子库,需供应人工智能模子所需基础操作的高本能实行;也许尽或者掩盖外率人工智能模子所需的操作;算子库能充裕施展底层硬件的本能,如英伟达cuDNN,cnBLAS。

  第五是AI编译器,要可正在异构惩罚器上对人工智能秩序天生高效的主意代码;对算子库不行供应的操作通过AI编译器自愿天生高效主意代码,如XLA、TVM。不外,郑纬民也道到,目前邦内担任AI编译器的人才较少,实行难度较大。

  第六是编程讲话,要供应异构惩罚器上编写并行秩序的赞成;掩盖底层硬件性能,施展硬件本能;也许编写人工智能模子的基础算子(Operator),如英伟达的CUDA,Intel的oneAPI。

  第七是更改器,需具备正在大范畴体例上高效更改人工智能劳动的才气;同时安排高效更改算法,提升集群资源诈骗率,如Kubernetes(K8S)、华为ModelArts。

  郑纬民直言,目今邦内仍然有了上述软件,但做得不足全,不足好。当务之急是先将上述软件做好,从而提升用户的使有意愿。郑纬民夸大,邦产AI芯片与业界领先秤谌存正在肯定差异,但若将生态做好,只消本能能够抵达业界领先秤谌的一半或60%,客户也会答允利用,大大批劳动不会因芯片本能的轻微不同而有显著感知。

  至于第三种渠道,基于超等估量机的体例,依照郑纬民泄漏,目今邦内约有14个邦度级超算核心,本能很速且机械利用状况尚未抵达饱和。若软硬件协同的安排做好,正在超算机械上做大模子锻练也是或者实行的。

  郑纬民供应的视频演示显示,正在某邦产超算前进行大模子锻练与推理时,利用超算更改体例申请512个节点来举办7B模子预锻练,半精度和全精度锻练成绩可与英伟达平全对齐;与租用英伟达GPU比拟,利用邦产超算可精打细算6倍操纵的本钱。加载开源的百川27B模子举办推理,推理精度也与英伟达相仿。更为环节的是,从本钱角度商酌,正在上述超算平台上锻练大模子,只需花费英伟达体例六分之一的本钱。

  道及目今智能算力行业面对的痛点,郑纬民直言,构开邦产万卡体例很难,但很有需要,异日仍然要繁华邦产卡的生态体例,做好软硬件的协同安排,同时处置大模子根本措施的几大题目。“固然很难,但只消咱们辛勤,与芯片公司配合,肯定能将万卡体例做好。”郑纬民称。

  如需转载请与《逐日经济讯息》报社干系。未经《逐日经济讯息》报社授权,苛禁转载或镜像,违者必究。

  奇特指点:倘若咱们利用了您的图片,请作家与本站干系索取稿酬。如您不指望作品产生正在本站,可干系咱们哀求撤下您的作品。

  累计装机量超610万套 IDC预测2023年欧拉系邦内墟市份额达36.8%

  共开邦际一流法令供职高地 第六届天府核心法务区法商调解暨川港法令事宜交换洽道会进行

  马斯克正在中邦中止不到1天,特斯拉大涨15%,特斯拉市值一夜大涨5944亿元

  华为将于5月7日正在迪拜进行环球更始产物颁发会 华为与苹果同日举办新品颁发会

搜索