首页 > 滚动

动态焦点:MosaicML 推出 300 亿参数模型,训练成本 70 万

来源:荆州晚报 2023-06-24 10:56:56


(资料图)

AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。

MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。

MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。

300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。

其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。

除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。

开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。

上一篇 下一篇
热文推荐 更多

动态焦点:MosaicML 推出 300 亿参数模型,训练成本 70 万

2023-06-24

每日动态!绿豆棒冰的做法?

2023-06-24

192.168.1.1登陆口(192.168.1.1登陆)

2023-06-24

禁入!北部湾部分海域进行军事训练

2023-06-24

全球热推荐:仰望U8上市时间提前:8月上市 9月交付第一批!

2023-06-24

2023四川高考理科分数线 本科433专科150

2023-06-24

甘肃省张掖市2023-06-23 23:40发布雷电黄色预警

2023-06-24

泰拉瑞亚服务器怎么开 泰拉瑞亚服务器

2023-06-23

环球热议:四川餐馆免费餐巾纸 米饭另收费

2023-06-23

频繁推新车,二线豪华品牌要突围?

2023-06-23

香港中小企融资担保计划的还息不还本申请期再度延长3个月

2023-06-23

信用卡分期会影响额度使用吗?需要选择合适的分期类型!

2023-06-23

焦点速讯:芝罘:45名学生领到“青鸟”返烟大学生补助金

2023-06-23

总经理年度工作总结讲话(总经理年度工作总结)_天天热推荐

2023-06-23

天天讯息:欧股开盘普跌 欧洲斯托克50指数跌0.58%

2023-06-23

有人冒充机场免税店工作人员销售免税商品,成都中免:假的

2023-06-23

23164期福彩体彩晒票:成功没有捷径,有志者事竟成 天天微速讯

2023-06-23

72亿!杭浦高速公路海盐联络线项目中标-全球即时看

2023-06-23

溪边古诗特点有哪些 古诗溪边最后一句写出了什么的景象? 当前速读

2023-06-23

摩洛哥媒体:阿姆拉巴特和马竞谈妥,但佛罗伦萨要价3000万欧

2023-06-23