风口观EBET易博察｜中英文差异给国产大模型训练“加压”政务领域或成超车赛道

新闻资讯 | 2023-08-31 10:32

　　大模型热度不减，但训练大模型的数据或将在2026年耗尽，成为当下AI领域的尴尬一幕。

　　根据Epoch调查团队的最新研究结果，目前对数据需求急剧增加，以至于可用于训练的高质量文本可能会在2026年耗尽，低质量数据则可能在几十年后耗尽。

　　数据训练对大模型的重要性不言而喻，在数据、算力、算法“三驾马车”里，数据是最核心、最长远、最基础性的要素。若数据于2026年耗尽，则意味着通过增加训练数据量来改善大模型运行结果的趋势会逐渐放缓，未来这或许将成为行业的集体焦虑。造成数据耗尽的原因是什么？这会给AI领域带来哪些变革？面对数据困境，业界又有哪些补救措施？

　　早在今年6月，关于大模型数据的调取使用就曾引发一场诉讼。学而思的作文素材产品合作方笔神作文宣布起诉学而思，称其用爬虫盗取数据，这也成为国内“大模型数据被盗第一案”。虽然2个月后，双方已经达成和解，但这也将大模型训练数据来源是否合规的问题摆到台面上。

　　而在国外，数据集纠纷问题表现的更为严重。OpenAI就因为抓取公开数据来训练专利AI模型的行为备受争议，也因此诉讼缠身，其中一家位于北加州的律所甚至主张OpenAI 的整个商业模式都是基于盗窃，并提出了高达30亿美金的赔偿款。

　　或许是不堪被频频指控，目前OpenAI已经承认推出了名为GPTBot的网络爬虫机器人，用于收集信息数据以改进未来的AI模型，但其表示，将严格遵守任何付费墙的规则，此外，网站所有者还可以选择限制或者禁止GPTBot爬取网页数据。

　　广东工业大学教授蔡念表示，“版权的保护会导致数据越来越难获取，今后的获取成本也将越来越高。”但另外一方面，训练大模型所需要的数据却将越来越多。以OpenAI的GPT模型为例：GPT-1预训练数据量仅为5GB；到了GPT-2，数据量已经增加至40GB；而GPT-3.5的数据量已经直接飞升至45TB。

　　45TB数据量意味着什么？蔡念举例，“45TB大概是相当于1.6亿册书的数据量，到下一代大模型所用数据量只会更多。”一边是大模型迭代需要更多数据，一边是数据即将用尽的现实，如何处理二者之间的矛盾成为当下的迫切难题。

　　在全球训练数据的口子越收越紧的时候，国内大模型发展或许将迎来弯道超车的机会。

　　去年年底，ChatGPT的推出点燃了国内外巨头的竞争欲。纵观国内AI领域，百模大战依然如火如荼，但从产品体现来看与ChatGPT仍有一定差距。

　　“国外的大模型为什么发展的比我们快？不一定是技术的问题，还有中、英两种语言的环境差异。”就其中原因，广东工业大学教授蔡念举了一个很直观的例子，“从全球范围来看，学术类论文、文献等英语资料远远多于中文资料，而大模型很大程度上是数据驱动，只有数据足够多模型才能无限接近上限。”数据，是AI大模型发展的养料。

　　从大模型的训练数据来源来看，除了公开数据集和网络数据外，还有合作数据和数据众包等方面。合作数据是公司、机构等独有的数据资源，可支持不同领域的研究和应用，但这对大模型要求较高，普通中小企业机会不多。

　　众包是一种通过向大量的用户或者工人收集数据来解决问题的方法。这种方式可以快速搜集大规模的数据集，例如图像标注、音频翻译。

　　今年以来数据标注员这份工作逐渐进入大众视线。从薪资方面来看，国内招聘网站薪资区间在3000-8000之间。而国外的AI数据标注大量外包给了南非、委内瑞拉地区，在肯尼亚，标注员工的工资为每个月 2.1 万肯尼亚先令(约合 1158 元)。

　　因此蔡念认为，在这方面我们并不能产生竞争力，“这是个必要而且辛苦的职业，大部分大模型公司做的都是外包，因为岗位没有多大技术含量，也没有学历要求，而年轻人的受教育程度一定会越来越高，以后有多少人愿意进厂是个未知数。”

　　他认为，竞争优势来源于特定领域。他对风口财经表示，“未来数据的获取将会变得越来越难，但国内大模型或许将在某些特定领域迎来弯道超车的机会，比如政务平台积累的数据较多，这对于AI模型的发展来说意义很非常。”

　　隐私计算被认为是一个不错的解法。隐私计算通过使用密码学和数据加密技术，可以在不泄露原始数据的前提下对数据进行分析计算，实现数据的共享、互通、计算和建模。目前隐私计算已经在金融行业落地，未来这项技术还有很大可能应用在政务平台和医疗行业。

　　在不久前的一场会议上，蔡念给台下的企业们提了个实在建议，“如果你们真的想做大模型，从现在开始就要搭建自己的数据库。”

　　自己搭建数据库，喂给大模型训练也是一种办法，但这对企业规模要求极高，大模型训练需求的数据量太大，普通小企业很难做到。

　　不过从今年大模型的风靡程度来看，很多创业企业也都把大模型写进了发展规划里。青岛乐通资本投资总监车彬曾对风口财经表示，在他今年接触的项目里，已经有一些比较成熟的项目也开启了在大模型方面的探索，“我接触的一个尽调比较深的项目，它们的未来研发方向里就有大模型。”

　　关于创业企业运用大模型的逻辑，蔡念认为，虽然自己搭建大模型不占优势，但小企业们可以直接用已经训练好的模型。“实际在产业里运用通用大模型，未必能够满足企业某个场景具体的精细需求，但可以解决80%的问题，如此它就能打败80%的普通公司。”

　　但这也会带来一个问题，那就是行业将快速变成红海区。逻辑也很简单，大家都有大模型相当于大家都没有大模型，当技术优势在业内普及，产品和商业模式同质化的问题也会一并随之而来。

　　到那个时候，企业之间安身立命之本就在剩下那20%的差异里。蔡念表示，“这20%的差异就是企业的独门绝技，它并不是单纯指技术层面，还可以是商业模式，也可以别人切不进来的领域，总之不要排斥大模型，要拥抱大模型。”

　　特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

　　美商务部长雷蒙多在沪召开发布会，被华为Mate60pro卫星移动终端拍照

　　张文宏已任国务院国资委副秘书长！此前任国务院国资委机关服务管理局党委书记

　　国足一幕重现！中国男篮3连败出局，出征前唱高调，成最大笑线万大单，奖金分文不发，离职前收到老板信息愣了

　　坐拥上亿粉丝的“疯狂小杨哥”自曝：一个月发出去5000万工资！去年缴税就交了2个亿……EBET易博官方网站