EBET易博官方网站大模型训练一次200-1200万美元ChatGPT多烧钱？

新闻资讯 | 2023-02-16 07:37

　　随着以ChatGPT为代表的生成式AI兴起，其背后以大模型为基础的人工智能成为业界投入的方向。

　　所谓“大模型”，通常是在无标注的大数据集上，采用自监督学习的方法进行训练。之后在其他场景的应用中，开发者只需要对模型进行微调，或采用少量数据进行二次训练，就可以满足新应用场景的需要。

　　据腾讯研究院，当前的人工智能大多是针对特定的场景应用进行训练，生成的模型难以迁移到其他应用，属于“小模型”的范畴。整个过程不仅需要大量的手工调参，还需要给机器喂养海量的标注数据，这拉低了人工智能的研发效率，且成本较高。

　　相比之下，大模型的改进可以使所有的下游小模型受益，大幅提升人工智能的使用场景和研发效率。

　　同时，在大模型的框架下，ChatGPT所使用的GPT模型，每一代参数量均高速扩张，预训练的数据量需求和成本亦快速提升。

　　国盛证券计算机分析师刘高畅、杨然在发表于2月12日的报告《Chatgpt 需要多少算力》中估算，GPT-3训练一次的成本约为140万美元，对于一些更大的LLM模型，训练成本介于200万美元至1200万美元之间。这一成本于全球科技大企业而言并不便宜，但尚在可接受范围内。

　　国盛证券估算，今年1月平均每天约有1300万独立访客使用ChatGPT，对应芯片需求为3万多片英伟达A100GPU，初始投入成本约为8亿美元，每日电费在5万美元左右:

　　标准机柜：19英寸、42U。单个DGXA100服务器尺寸约为6U，则标准机柜可放下约7个DGXA100服务器。则，单个标准机柜的成本为140万美元、56个A100GPU、算力性能为35PetaFLOP/s、最大功率45.5kw。

　　每日咨询量：根据Similarweb数据，截至2023年1月底，站（即ChatGPT官网）在2023/1/27-2023/2/3这一周吸引的每日访客数量高达2500万。假设以目前的稳定状态，每日每用户提问约10个问题，则每日约有2.5亿次咨询量。

　　A100运行小时：假设每个问题平均30字，单个字在A100GPU上约消耗350ms，则一天共需消耗729,167个A100GPU运行小时。

　　初始算力投入：以前述英伟达DGXA100为基础，需要30,382/8=3,798台服务器，对应3,798/7=542个机柜。则，为满足ChatGPT当前千万级用户的咨询量，初始算力投入成本约为542*140=7.59亿美元。

　　EBET易博官网

　　国盛证券基于参数数量和token数量估算，GPT-3训练一次的成本约为140万美元；对于一些更大的LLM模型采用同样的计算公式，训练成本介于200万美元至1200万美元之间：

　　1）基于参数数量和token数量，根据OneFlow估算，GPT-3训练一次的成本约为139.8万美元：每个token的训练成本通常约为6N（而推理成本约为2N），其中N是LLM的参数数量；假设在训练过程中，模型的FLOPS利用率为46.2%，与在TPUv4芯片上进行训练的PaLM模型（拥有5400亿参数）一致。

　　2）对于一些更大的LLM模型（如拥有2800亿参数的Gopher和拥有5400亿参数的PaLM），采用同样的计算公式，可得出，训练成本介于200万美元至1200万美元之间。

　　国盛证券认为，在公有云上，对于以谷歌等全球科技大企业而言，百万至千万美元级别的训练成本并不便宜，但尚在可接受范围内、并非昂贵。

　　本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。市场有风险，投资需谨慎，请独立判断和决策。

　　原标题：《大模型训练一次200-1200万美元！ChatGPT多烧钱？》

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。