当前位置:网站首页 > 科技网络 > 正文

微软的带有DeepSpeed的ZeRO2可以训练多达1700亿个参数的神经网络

作者:访客发布时间:2023-04-25分类:科技网络浏览:127评论:0

导读:导读给大家分享一篇关于互联网和手机的文章。相信很多朋友对互联网和手机还是不太了解,所以边肖也在网上搜集了一些关于手机和互联网的相关知识...
导读 给大家分享一篇关于互联网和手机的文章。相信很多朋友对互联网和手机还是不太了解,所以边肖也在网上搜集了一些关于手机和互联网的相关知识

给大家分享一篇关于互联网和手机的文章。相信很多朋友对互联网和手机还是不太了解,所以边肖也在网上搜集了一些关于手机和互联网的相关知识与大家分享。希望大家看完之后会喜欢。

微软今天升级了DeepSpeed库,使用ZeRO-2来训练大型神经网络。微软表示,内存优化技术可以训练1700亿个参数的机器学习模型。从上下文来看,NVIDIA庞大的威震天语言模型是当今世界上最大的模型之一,拥有110亿个参数。

今天的公告是继2月份DeepSpeed Library开源代码发布后,这个库被用来创建图灵-NLG。图灵-NLG有170亿个参数,是世界上已知的最大的语言模型。微软在2月份与DeepSpeed一起推出了零冗余优化器(ZeRO)。

ZeRO通过减少数据并行中的内存冗余来实现其结果,这是将大型模型拟合到内存中的另一种技术。ZeRO-1包含一些模型状态内存优化,而ZeRO-2为活动内存和碎片内存提供优化。

DeepSpeed是为多台服务器上的分布式模型训练而设计的,但ZeRO-2也在单个GPU上改进了训练模型,据说比谷歌的BERT快30%。

微软首席技术官凯文斯科特将在周三的主题演讲中宣布更多细节。

这一消息是在微软数字构建开发者大会(Microsoft Digital Build Developers Conference)开始时宣布的,会上宣布了许多人工智能的发展——包括用于机器学习中差异隐私的WhiteNoise Toolkit的首次亮相,以及用于人工智能工业应用的Project盆景的首次亮相。

上周,英伟达首席执行官黄仁勋介绍了安培GPU架构和A100 GPU。新的GPU芯片、多模式模型和大规模推荐系统的创建将在未来几年带来更大的机器学习模型。

本文就为大家讲解到这里了。