EBET易博真人平台二十张图无门槛训练大模型商汤“秒画”不止文生图

  新闻资讯     |      2023-05-06 23:16

  不久前,商汤发布会上所展示的文生图样图被发现有两张来自开源模型网站Civitai,商汤大模型的开源逻辑并未被市场理解。商汤也在第一时间回应,“秒画SenseMirage”是一个包含商汤自研AIGC大模型和便捷的LoRA训练能力,并提供第三方社区开源模型加速推理的创作平台,旨在为创作者提供更加便利、完善的内容生产创作工具。秒画“SenseMirage”不仅融合了超10亿参数的商汤自研文生图生成模型,还支持一键导入多个平台的开源模型或上传用户本地模型并对其进行特异性推理加速优化,结合自研模型及训练能力,用户可免除本地化部署流程,并基于开源模型自训练模型,高效地生成更多样的内容。

  在近日的一场采访中,商汤智慧决策与游戏事业部总经理刘宇表示,在商汤“日日新”大模型发布会上,被质疑的两张图片确实来自Civitai网站。但这并不涉及到商汤抄袭模型,而是提供第三方社区开源模型加速推理创作平台的体现。

  “展示那两张的样图的实际目的在于告诉大家,商汤秒画的本质定位是一个平台,而不是单纯的文生图产品。用户除了可以用商汤自研的文生图模型进行创作,同时可以选用像Civitai这样的三方社区开源模型来使用。”刘宇称。

  根据介绍,秒画的实际定位是一个AIGC模型“超市”,在平台内除了商汤自研训练的模型可供使用,还支持用户上传本地图像,结合商汤自研作画模型或者开源模型来训练定制化LoRA模型,来高效地生成个性化内容。(LoRA, 用于通过小数据继续训练,将大模型的能力适应到某个垂类领域,但会影响大模型的泛化能力)。

  目前秒画所披露的用户界面显示,用户可以使用商汤自研作画模型创作自己的作品并分享到广场;同时,用户可以通过收藏,将商汤自研模型或开源模型添加至用户“精选模型”列表中,方便需要时访问和调用;而精选模型包括商汤自研文生图模型与用户自训的模型,还包括社区开源模型分享网站Civitai以及提供型托管及GPU算力支持服务的AI开源软件公司Hugging Face等开源模型,可供用户使用。

  从体验上看,只需要两秒,输入Prompts,就可以得到一副精美的AI画作。

  据介绍,商汤自研的AIGC文生图大模型拥有超10亿参数,支持二次元、三次元等多种生成风格。用户无需复杂的编程知识,只需给定提示词,即可生成相应图像,最高可实现6K高清图。

  无论是写实照片、脑洞大开的艺术画作,还是未来科幻场景,模型生成的图像都能根据用户需求,带来真实的光影效果以及丰富的细节内容。凭借超快的推理性能,商汤自研作画模型的文生图能力,单卡每2秒就能生成1张512*512分辨率的图片。

  技术上,秒画主要基于商汤“日日新”大模型体系。根据商汤的解释,取名“日日新”指的是模型的迭代速度及处理问题的能力上可以日日更新,不断解锁AGI更多可能。该大模型能够支持自然语言处理、图片生成、自动化数据标注以及自定义模型训练等。除了秒画,在日日新大模型发布会上,商汤CEO徐立对外发布了AI内容创作方式产品秒画、AI数字人视频生成平台如影以及3D内容生成平台琼宇、格物。

  在文生图模型上,商汤从2019年开始做初步尝试。据介绍,2019年起,商汤开始着手训练单任务模型。当年推出了约10亿参数规模的视觉模型。在2021年到2022年期间,商汤训练并开源了30亿参数的多模态大模型——书生。目前,商汤已经研发出320亿参数量的全球最大通用视觉模型,并打造了CV、NLP和AIGC相关大模型。秒画平台基于商汤大装置的GPU算力支撑,可帮助用户免除本地化部署流程。

  此外,在文生图赛道目前最重要的要素离不开算力。由于商汤目前拥有自己的人工智能计算中心,相对于其他公司拥有充沛的算力支持。商汤的人工智能计算中心于2022年1月在上海临港正式交付使用。

  彼时,该算力中心的总算力便已经是3740 Petaflops,足够支持约万亿参数的大模型训练。一年过去,根据最新的资料,商汤算力中心总算力已超过5000 Petaflops,能够实现最大4000卡规模集群进行单任务训练,并可做到七天以上不间断的稳定训练。

  商汤多年来积累的视觉数据也将在大模型建设中发挥优势。据介绍,视觉数据相较于自然语言在数量、质量以及容纳信息等方面都具备优势,因此AI能够更好地理解世界。

  而相比于其他文生图大模型产品,商汤秒画“平台”的定位决定了其产品差异性。刘宇认为,秒画除了可以提供文生图模型,更重要的是能够基于平台的算力、推理加速能力以及众多开源模型,去帮助用户更方便和快速地翻训自己的垂类模型。

  从大模型的角度,他提到,相比于直接面向C端娱乐的场景去提供一个文生图产品,商汤更希望做的为提供一个足够好的基础大模型,能够支持B端商家用更少的数据、更快的时间、更低的成本去训练出一个和Stable Diffusion差不多甚至更好的垂类模型。

  目前市面上所有的LoRA模型都是基于Stable Diffusion或者其变体训练的,依托商汤基模型本身强大的泛化能力,使用其替代Stable Diffusion模型可以基于更少量数据快速训练出质量更高的LoRA模型,实现更优的风格定制化图像生成,这样的功能在秒画平台通过5分钟即可实现。

  刘宇举例称,比如对于一个服装类的B端商家来说,如果采用的是开源Stable Diffusion的基础大模型,可能由EBET易博真人平台于Stable Diffusion见过的亚洲人服装、模特数据不够多,大模型的泛化性就会比较差,导致商家用自己的数据投喂进去训练模型的成本增高效果却不尽如人意。

  “而当我们的大模型能够见过的数据足够多,模型大小优化地足够好的时候,B端商家利用秒画作为基础模型去微调下游模型,就可以用更少数据得到更精准的垂类模型。”

  另外,定位“平台”的属性意味着秒画不仅仅可以提供文生图模型,还自带一套算法框架。用户可以直接在平台上去训练自己的模型,而不需要另外在本地部署环境,大大降低门槛。

  同时,相比于本地部署或其他环境,商汤秒画平台还还提供特异性推理优化服务,开源模型导入后会自动采用秒画底层的模型编译技术进行加速,实测在本地RTX3070显卡需要10秒生成的图片通过秒画加速技术只需要2秒就可以生成。

  也就是说,基于秒画,一个普通人也可以更快更好地训练自己想要的垂类大模型。刘宇举例称,只要用20张港风的照片拖到秒画平台,大概只需要几分钟的时间就可以生成一个能够生产港风照片的大模型。这个过程中没有任何代码编写、数据清洗等等以前只有AI工程师需要做的工作。只需要选择模型,拖拽数据,就可以实现最终的结果。

  “我们的终极目标是做一个模型社区。”刘宇提到,会出现前文所述的质疑本质上体现了目前大模型翻训的行业现状。

  比如,A是一个开源基础模型,B是在A的基础上加上一些垂类数据训练出了一个在跳舞方面更专业效果更好的垂类模型,C又在B的基础上增加了唱歌等数据训练出新的不同模型。

  “这个模型依赖链条目前是无法明确的。当有一天B模型的拥有者如果不再自己的模型被下游模型进行商用,那如何对无数个下游模型C进行沟通是一个问题。”刘宇称,秒画所搭建的平台最终希望做到的是,将模型训练依赖链条进行明确,方便每一个大模型拥有者进行翻训,也方便大家管理自己的大模型上下游应用。”

  如果基础模型和一整个模型依赖链条成立,那么从商业的角度,商汤还需要解决上下游模型权限的清晰界定以及涉及商业数据的存放问题。

  刘宇分享了商汤目前对于这些问题的看法。从数据隐私的角度,刘宇称,商汤此前许多TO B的解决方案中也面临过类似的问题,如果上下游模型训练的商业公司不愿意将数据上传到我们的公有云平台,商汤可以协助搭建私有云,并且以SaaS的形式提供服务。

  另外,对于模型链条上的各个环节,对于会有公司希望自己翻训出来模型不被下游继续翻训的情况。商汤提供了两种权限选择,一是开放自己的模型,并设定收费模式;二是选择私有,自行封闭训练。

  刘宇提到,目前商汤秒画平台仍在私有化测试期,面向邀请制用户免费开放。测试期结束后,商汤会根据用户使用的算力进行梯度收费,另外如果下游模型购买付费模型,商汤作为平台将有部分抽成。

  据刘宇透露,由于在秒画平台训练模型的效率会至少提高2-3倍,因此相对于其他竞争对手,秒画未来的市场价格将比较有竞争力。当前秒画已经收到超过十家客户的咨询,未来将在汽车、营销、电商、游戏等行业落地。

  未来一段时间,商汤将继续发力产品,在部署中不断优化和调试,将几十家不同领域客户的定制需求梳理成通用可复用的需求。

  “我们的愿景是赋能千行百业”刘宇称,这件事与当前市场上绝大多数的大模型厂商的目标是不一样的,相比于其他厂商只是希望做到根据Prompt制作更好的图片,秒画更希望做的事是让更多行业的客户或者个人创造出自己的LoRA模型。