PG电子中邦工程院院士郑纬民：做好十个软件改观基于邦产AI芯片的体例生态

产品展示 PRODUCTS

PG电子中邦工程院院士郑纬民：做好十个软件改观基于邦产AI芯片的体例生态

　　◎4月28日，中邦转移2024算力汇集大会正在姑苏开张。《逐日经济讯息》记者正在现场提神到，会上，中邦工程院院士郑纬民提到，目前有三类体例可赞成大模子锻练。基于英伟达GPU的体例一卡难求；基于邦产AI芯片的体例仍面对邦产卡操纵不敷、生态体例有待革新的题目，可通过十个软件来举办革新；基于超等估量机的体例，可正在做好软硬件协同安排的状况下实行大模子锻练，但需正在超算机械尚未饱和的条件下操作。

　　4月28日，中邦转移2024算力汇集大会正在姑苏开张。《逐日经济讯息》记者正在现场提神到，会上，中邦工程院院士郑纬民提到，目前有三类体例可赞成大模子锻练。

　　此中，基于英伟达GPU的体例一卡难求；基于邦产AI芯片的体例仍面对邦产卡操纵不敷、生态体例有待革新的题目，可通过十个软件来举办革新；基于超等估量机的体例，可正在做好软硬件协同安排的状况下实行大模子锻练，但需正在超算机械尚未饱和的条件下操作。团体来看，尽量打制邦产A1卡的万卡大模子锻练平台难度不小，但非常需要。

　　郑纬民提出，近两年来人工智能的成长导致算力需求呈产生性增进，此中模子研发需求配套算力；模子锻练需求海量算力，如锻练GPT-4需求一万块英伟达A100芯片跑上11个月；模子精调需求可控算力；模子推理需求牢靠算力，算力存正在于大模子人命周期的每一环。

　　然而，海量算力背后有一个很实际的题目：贵。依照郑纬民估量，正在大模子锻练的历程中，70%的开销要花正在算力上；推理历程中95%的花费也是正在算力上，人工智能财产算力本钱居高不下。

　　郑纬民进一步指出，要修筑基于邦产AI卡的万卡大模子锻练平台，需求商酌到几个题目。开始是半精度运算本能与双精度运算本能的均衡题目。郑纬民夸大，正在安排历程中，不单要商酌半精度运算本能，还要商酌双精度运算才气，双精度与半精度运算本能之比为1∶501∶100为宜。“无论是本身做仍然买，第一件事务即是问比例是众少。”

　　郑纬民讲明称，万卡体例中的万块卡不行分袂正在各地PG电子，将其维系起来即是所谓的汇集。但维系也很有“考究”，每块卡之间能实行直连是最好的状况。但如许一来，每块AI卡都需插上9999块维系卡，一万块AI芯片均要实行直连，所需的维系卡数目过度宏伟，本钱乃至还要高过万块卡自身。另外，即使资金满盈，卡槽数目也无法餍足需求。于是，汇集安排不行只针对CNN算法，还需商酌极大范畴预锻练模子对体例的需求。大范畴预锻练模子需求高带宽低延迟汇集，赞成数据并行，模子并行和专家平行形式。

　　第三点是系统组织感知的内存均衡安排。郑纬民夸大，一方面拜望内存的要求使汇集堵塞，消浸含糊量，反应到操纵秩序上展现为访存本能明显低落；另一方面，众个拜望内存的要求或者拜望统一存控对应的内存空间，负载不均，存控需求依次惩罚访存要求。

　　第四点是IO子体例均衡安排。郑纬民进一步讲明称，万卡体例中负载的芯片数目太大，即使是英伟达芯片，也基础会正在三小时操纵产生一次纰谬。过去，为担保锻练不被停止，大模子锻练厂商平时采用间隔一段时刻，如2.5小时对数据举办一次保全或挪动，一朝产生纰谬能够不必从0下手，可正在保全职位无间推行。

　　然而，大模子锻练数目过大，很难沿用上述操作形式。于是，万卡体例除了赞成查验点操作，还需扩张SSD（固态硬盘）。此外，体例的当地NVMe SSD仅通过当地文献体例拜望，范围了其操纵限制，需将每台供职器上的急迅当地NVMe整合为操纵可睹的整体分散式文献体例。

　　郑纬民分解指出，目前来看，赞成大模子锻练有三类体例，辞别为基于英伟达GPU的体例、基于邦产AI芯片的体例和基于超等估量机的体例。此中，基于英伟达公司GPU的体例硬件本能和编程生态好，但受到禁售影响，加之价钱暴涨，一卡难求。而基于邦产AI芯片的体例，尽量近年来邦内二十余家芯片公司获得了很大的提高，但仍面对邦产卡操纵不敷、生态体例有待革新的题目。

　　郑纬民直言，要革新基于邦产AI芯片的体例生态，这一题目实在并不“空洞”，需求做好十个软件。

　　第一是编程框架应进一步消浸编写人工智能模子的纷乱度；诈骗基础算子急迅修筑人工智能模子，如PyTorch、TensorFlow。

　　第二是并行加快，为众机众卡境遇供应人工智能模子并行锻练的才气；赞成数据并行、模子并行、流水线并行、张量并行等，如微软的DeepSpeed、英伟达Megatron-LM。

　　第三是通讯库要供应跨机跨卡的通讯才气；可赞成人工智能模子锻练所需百般通讯形式；可依照底层汇集特质充裕诈骗汇集通讯带宽，如英伟达的NCCL库、超算众数赞成的MPI通讯库。

　　第四是算子库，需供应人工智能模子所需基础操作的高本能实行；也许尽或者掩盖外率人工智能模子所需的操作；算子库能充裕施展底层硬件的本能，如英伟达cuDNN，cnBLAS。

　　第五是AI编译器，要可正在异构惩罚器上对人工智能秩序天生高效的主意代码；对算子库不行供应的操作通过AI编译器自愿天生高效主意代码，如XLA、TVM。不外，郑纬民也道到，目前邦内担任AI编译器的人才较少，实行难度较大。

　　第六是编程讲话，要供应异构惩罚器上编写并行秩序的赞成；掩盖底层硬件性能，施展硬件本能；也许编写人工智能模子的基础算子（Operator），如英伟达的CUDA，Intel的oneAPI。

　　第七是更改器，需具备正在大范畴体例上高效更改人工智能劳动的才气；同时安排高效更改算法，提升集群资源诈骗率，如Kubernetes（K8S）、华为ModelArts。

　　郑纬民直言，目今邦内仍然有了上述软件，但做得不足全，不足好。当务之急是先将上述软件做好，从而提升用户的使有意愿。郑纬民夸大，邦产AI芯片与业界领先秤谌存正在肯定差异，但若将生态做好，只消本能能够抵达业界领先秤谌的一半或60%，客户也会答允利用，大大批劳动不会因芯片本能的轻微不同而有显著感知。

　　至于第三种渠道，基于超等估量机的体例，依照郑纬民泄漏，目今邦内约有14个邦度级超算核心，本能很速且机械利用状况尚未抵达饱和。若软硬件协同的安排做好，正在超算机械上做大模子锻练也是或者实行的。

　　郑纬民供应的视频演示显示，正在某邦产超算前进行大模子锻练与推理时，利用超算更改体例申请512个节点来举办7B模子预锻练，半精度和全精度锻练成绩可与英伟达平全对齐；与租用英伟达GPU比拟，利用邦产超算可精打细算6倍操纵的本钱。加载开源的百川27B模子举办推理，推理精度也与英伟达相仿。更为环节的是，从本钱角度商酌，正在上述超算平台上锻练大模子，只需花费英伟达体例六分之一的本钱。

　　道及目今智能算力行业面对的痛点，郑纬民直言，构开邦产万卡体例很难，但很有需要，异日仍然要繁华邦产卡的生态体例，做好软硬件的协同安排，同时处置大模子根本措施的几大题目。“固然很难，但只消咱们辛勤，与芯片公司配合，肯定能将万卡体例做好。”郑纬民称。

　　如需转载请与《逐日经济讯息》报社干系。未经《逐日经济讯息》报社授权，苛禁转载或镜像，违者必究。

　　奇特指点：倘若咱们利用了您的图片，请作家与本站干系索取稿酬。如您不指望作品产生正在本站，可干系咱们哀求撤下您的作品。

　　累计装机量超610万套 IDC预测2023年欧拉系邦内墟市份额达36.8%

　　共开邦际一流法令供职高地第六届天府核心法务区法商调解暨川港法令事宜交换洽道会进行

　　马斯克正在中邦中止不到1天，特斯拉大涨15%，特斯拉市值一夜大涨5944亿元

　　华为将于5月7日正在迪拜进行环球更始产物颁发会华为与苹果同日举办新品颁发会

上一篇：PG电子官方浩辰CAD软件兼具更强延展性与兼容性助力中化工程数字化升级

下一篇：PG电子官方风河与Elektrobit联袂饱动软件界说汽车治理计划

PG电子·(中国)官方网站

首页

关于pg电子官网入口

新闻中心

产品展示

留言板

咨询研究

联系pg电子官网入口

产品展示 PRODUCTS

PG电子中邦工程院院士郑纬民：做好十个软件改观基于邦产AI芯片的体例生态