在机器学EBET易博官网习里经常听到训练模型模型到底是个什么呢有没有大佬给个通俗一点的解答？？

新闻资讯 | 2023-09-03 22:38

　　所谓机器学习里的模型训练，在我看来，其实就是在构建一种输入数据与输出数据之间的映射关系。

　　集合A和集合B之间存在着某种关系f，通过这种关系，就可以将集合A中的每个元素都“映射”为集合B中的元素。

　　这种最简单的“映射”关系，一般常见于一、二年级的数学习题，主要考察洞察力。我们利用肉眼观察，通过简单心算就可以得出结果，A中的元素乘以4加1，即可得到B集合中的对应元素。

　　但是显而易见，在真正的实际应用过程中，映射关系f却并不是这样简单观察就可以得到的。

　　已知流域内有A、B、C、D四种土地利用类型，其中农田包含E、F、G三种作物类型，河流上有若干个水质监测站点，根据这些信息，同时考虑地形、气象等一大堆乱七八糟的影响因素，我希望通过列方程组和求解的过程，得到每种土地类型及每种作物的污染排放系数，也就是使输入数据与水质之间的“未知”关系，变成“已知”。

　　面对上百个待求解的方程组，那个时候的我，经过“慎重”考虑，选择了最小二乘法进行方程求解。

　　EBET易博官网

　　但是这种所谓的求解过程，其实与上图中集合A和集合B之间那种“确定”的映射关系略有不同。

　　用人话来解释的话，就是虽然我和隔壁王大叔都有一亩玉米地，但是因为我俩的施肥手法、刨地方式略有不同，所以最终这一亩玉米地产生的污染量并不相同。

　　也就是说，解多元方程组最终得到的预测结果是上图中的a，实际输出结果是上图中的b，二者之间并不是1：1完美对应的，而是存在一定的误差，这就涉及到我们经常提到的预测精度。

　　无论是R2，RMSE还是MSE，其实都是在衡量预测结果a和实际结果b之间的差距，而无论是哪种优化方法，都是在努力缩小二者之间的差距。

　　要知道，在“古早”的年代里，这些指标都是要在excel里自己用公式写出来的，当年因为我做了一套计算标准表格，实验室同门们可是没少请我吃饭的！

　　不过，自从ChatGPT可以轻松读取文件之后，这件事情变得再也没有门槛了。比如我把数据丢给Chat，然后让他帮我分析一下，它不但可以直接输出结果，甚至连图都可以画好：

　　我用最小二乘法得到的“解”，那些系数都是可见的，可以认为是一种“白箱”模型。

　　而机器学习，一般被称作“黑箱模型”，这主要是由于机器学习不同于传统的回归方法。传统的回归方法是要讲步骤、讲逻辑的，每一步计算都清晰可见。然而，机器学习确实完全依靠自己强大的计算能力“硬来”！

　　以经典的神经网络为例，输入数据x，进入隐藏层，经过一番“复杂”的“未知操作”，欸！就那么神秘的变成了输出层中的y数据！

　　当然，这个复杂的训练过程要以大量的数据为基础，神经网络通过努力的学习总结输入数据与输出数据之间的关系，最终帮我们确定了一个能够实现准确映射的f，这个f其实就是所谓的模型。

　　对于浅层机器学习算法来说，这个f所包含的参数其实并不是很多，其中需要我们给出初始值的参数一般只有2-3个。

　　而目前常用的CNN、LSTM、GAN等深度模型，其中会对训练结果产生显著影响的参数个数却是数以几十计。

　　如果只是随意给这些参数写上一个经验值，可能会对预测结果产生“毁灭性”的影响，比如梯度爆炸、梯度消失、模型拒绝收敛等等。而编写优化算法实现参数们的自动寻优，对于我这种半桶水的程序猿来说，难度巨大……可是自从GPT4.0出现以后，这件事情变得不再那么困难。只是ChatGPT坚定的认为自己只是一个文字模型，“不应该”从事写代码的工作，因此需要学习一些prompt的基础和使用技巧，才可以说服它更好的为我们所用。「知乎知学堂」联合「AGI课堂」推出的【程序员的AI大模型进阶之旅】的课程安排就非常合理，很适合新手入门了解，一共2天的课程，邀请了圈内技术大佬全面解读前沿技术，能够有效帮助编程小白快速提升认知和技术能力。

　　课程报名伊始，老师就会赠送一些免费的学习资料，非常有助于有一定编程基础的小伙伴们快速掌握大模型的操作技巧。

　　据我自己总结，其实只要做好任务拆分，就可以利用大模型实现很多复杂的功能，包括大段程序的编写及优化。

　　把输入数据放进去，逐个调整参数的初始值及学习率，观察每个参数对于训练效果的影响程度。

　　Chat会很努力的思考，并建议一些参数寻优方法。不过我觉得也可以自己查阅文献，看看目前最新的寻优方法是什么，并告知chat我要利用某种方法进行参数集的寻优，把原始的程序文件上传，要求chat在此基础上进行修改：

　　损失函数及每个参数的寻优范围都可以自行进行确定，通过不停的迭代计算，最终程序可输出最优的参数组合。

　　但是算力仍然是目前比较大的桎梏之一，我用自己的3090炼了大约一个月，才炼出来一组满意的丹，而且仅仅是选取了7个参数进行寻优。

　　不过效果还是真心很赞的，比起利用经验值的训练结果，精度有非常显著的提升。

　　随着算力的逐步提升，我相信未来这个问题一定不会再成为模型训练路上的最大障碍。而且大模型学习到的编程知识越来越丰富，其实完全可以把问题丢回给它，无论是进行算法优化，或是修改为动态寻优，大模型总是有办法减少模型训练时间，提升训练效率的！

　　说句实在话，对于机器学习模型的出现，所谓“经验丰富的专业人士”其实是最纠结的。

　　在过去，构建模型的过程是一个项目的灵魂和核心技术，如何设计一组精妙的结构来有效描述这种映射关系，往往需要渊博的跨学科交叉知识和丰富的经验，是专业人士价值的最直接体现。

　　然而，遗憾的是，过去映射关系的构建往往并不顺利，即使是最聪明的天才，也不可能洞察世间一切洁净精微。天体里有句话说“弱小和无知不是生存的障碍，傲慢才是”，放到传统建模我认为是“庞杂和无序不是建模的障碍，无知才是”。

　　嗯，说人话就是，人不可能构建出自己无法理解的结构去解释未知的映射关系，而机器学习，可以！

　　当然，我完全理解面对这种不可解释的黑箱，人类所表现出的冷漠、傲慢，或歇斯底里。“大力出奇迹”也好，“瞎猫碰上死耗子”也罢，对机器学习模型的质疑可能会一直延续下去。

　　当阿尔法狗走出来出乎所有人类顶尖棋手所预料的被称为很“仙儿”的棋招时，是围棋不存在了，还是思维不存在了呢？

　　可能我们都不愿意相信自己的思维本质就是一大堆简单的微积分，就像秦始皇不相信人列计算机一样。这

　　种涉及灵魂本质的东西，多思无益，不过这种简单算法的海量叠加，也就是各种机器学习模型，以及最新出现的各种大模型，目前来看似乎的的确确能帮我们做很多事。

　　机器学习的可解释性研究的的确确是一个重要的研究方向，因为这真的很重要，对人类和大模型的下一步发展很重要。真心建议大家早接触、多了解、勤使用，毕竟它会成为未来的重要生产力！「知乎知学堂」联合「AGI课堂」推出的【程序员的AI大模型进阶之旅】课程可以让大家免翻接触大模型，不仅可以实际上手应用，还有老师针对不同方面进行讲解，可以领一份免费的资料了解和学习一下哦！

　　在这个时代，人们可以利用云计算、大数据分析等技术来处理和呈现多模态信息。AI系统可以通过语音和图像识别技术对多媒体文件进行分析，从而实现智能的分类、检索和推荐。此外，随着5G和物联网技术的不断发展，多模态信息的处理和应用将会越来越普及。

　　AIGC是一种可以广泛应用于文本、图像、音频和视频生成的人工智能技术。在文本生成方面，它可以运用多种算法进行创作，例如Jasper、copy.Ai、ChatGPT、Bard和GTP4等。在图像生成领域，它可以使用技术如EditGAN、Deepfake、DALL-E和Stable Diffusion等，创造出各种令人惊叹的图片。对于音频生成，AIGC也拥有许多强大的工具，如DeepMusic、WaveNet、Deep Voice和MusicAutoBot等，可以生成高质量的音乐和声音效果。最后，对于视频生成，AIGC同样可以提供很多资源，比如Deepfake、VideoGPT、GliaCloud和ImageVideo等，能够制作出专业级别的视觉效果和动画。总之，AIGC在多个领域都有着广泛的应用前景，并且将会继续不断地发展和完善。

　　在单模态模型阶段（2012年前），深度学习技术没有普及，研究人员主要关注单一类型的数据处理，例如图像分类模型AlexNet等。

　　紧接着进入单模态模型融合阶段（2012-2018年），随着深度学习技术的不断发展和应用场景的多样化，研究人员开始尝试将多个单模态模型进行融合，实现不同数据类型之间的交叉学习和融合，例如HT100M、LXMERT、VisualBERT、videoBERT等模型。

　　目前已经处于多模态统一大模型阶段（2018年至今），研究人员开始提出采用单个模型处理多个数据类型的方法，这类模型通常包含多种输入和输出方式，需要大量的计算资源和数据支持，已经取得良好的效果。例如UNITER模型，它是一个基于Transformer结构的多模态统一大模型，能够同时处理文本、图片和视频等数据类型。它在内部使用了跨模态交叉注意力机制来实现不同数据类型之间的交互，从而使得整个模型能够更好地理解多种数据的语义信息，并取得了领先的性能。

　　近年来，随着人工智能技术的不断发展，文图生成技术也得到了显著的进步。今天的文图生成模型不仅能够生成逼真高清的图像，还能够实现更精致的效果，并具备可控性。在实现更精致的效果上，研究人员针对传统GAN模型存在的缺陷，提出了许多改进方法，如Pix2PixHD、SPADE等。这些模型能够增强模型输出的细节表现力，生成更加真实、精细的图像。在提高模型的可控性上，研究人员引入了条件图像生成的思想。通过给定不同的条件信息，包括语义标签、风格向量等，可以使模型生成更多样化、个性化的图像。例如，BigGAN、StyleGAN2等模型就能够根据不同的条件生成各种风格迥异的图像。除此之外，研究人员还提出了interpolated GAN和controllable GAN等模型，使得用户可以通过插值等方式来精细控制生成图像的各个细节。总之，文图生成技术在逼真高清的图像生成上取得了巨大的成功，在精细度和可控性方面也有了很大提高，这些技术的不断进步将为我们带来更加优秀、多样化的文图生成应用。

　　然而，文图生成AIGC的出现使得画风变得更加逼真高清，更有风格和意境。文图生成是利用人工智能技术根据输入的文本生成图像。在文图生成的研究中，逼真高清、融合多种风格和意境的图像生成是重要的研究方向。其中，高清作画模型如Google Imagen，能够实现高分辨率、逼真的图像生成；而意境绘画模型如StableDiffusion，则注重于将多种风格和意境进行融合，生成更加个性化、有深度的图像。这些模型的应用场景非常广泛，如艺术创作、平面设计等领域。

　　视频生成AIGC（Artificial Intelligence Generated Content）技术正越来越成熟，能够使得生成的视频像真实一样自然流畅、栩栩如生。视频生成AIGC技术所用的算法和模型也得到了不断的优化和改进。新型的神经网络算法、光学与物理学建模等技术被引入到视频生成AIGC中，使得生成的视频更加逼真。视频生成AIGC的研究重点在于如何捕捉到影片的场景、运动和情绪，以此生成自然流畅的视频。为此，研究人员将深度学习算法应用于视频生成，使得机器可以从大量的视频数据中学习各种动作和情感，从而产生栩栩如生的视频。此外，生成的视频不仅要接近真实，还要做到自然流畅。研究人员还提出了许多技术手段，比如光流分析、双向循环生成模型等，能够在不同场景下实现平滑过渡，从而使得视频更加自然流畅。视频生成AIGC技术的发展使得我们可以生成更加逼真、自然流畅的视频，应用场景非常广泛，如影视制作、游戏开发等领域。未来，视频生成AIGC将会进一步推进技术的发展和创新，给我们带来更多的惊喜和新体验。

　　多模态AIGC大模型驱动的具身智能是一种人工智能技术，它可以将传感器信号和文本输入结合起来，建立语言和感知的链接，从而操控机器人完成任务规划和物品操作。谷歌推出的5620亿参数PaLM-E就是其中的代表。这种技术的应用场景也很广泛，如智能家居、无人驾驶和工业自动化等领域。通过大模型驱动的具身智能，机器人可以更加智能地感知周围环境，并根据文本输入来规划相应的行动，实现人机协同。 PaLM-E模型采用了先进的多模态AIGC技术，它可以结合图像、声音、触觉等多个传感器信号来进行深度学习，并从中提取出关键特征。同时，PaLM-E还能够将文本输入转换为语义表示，与感知信息相结合进行综合判断和决策。这种技术的发展使得机器人可以更加智能地感知和理解周围环境，进而实现精准的任务执行和物品操作。 PaLM-E进一步验证了“智慧涌现”在多模感知和具身智能上的效果。

　　GPT-4的模型取得了重大突破，它拥有强大的图像识别能力，处理长达 2.5 万字的文本输入，让回答准确性大幅提升，以及能够生成歌词、富有创意的文本，可以实现风格的多样化。

　　GPT-4 作为一个强大的多模态模型，能够接受图像和文本输入，并输出准确的文本回答。实验证明，GPT-4 在各种专业测试和学术基准上的表现堪比人类水平。举个例子，在模拟律师考试中，GPT-4 能够取得前 10% 的成绩，而GPT-3.5则稍显逊色，只能排在倒数 10%。GPT-4 的新功能允许用户指定视觉或语言任务，并以纯文本设置并行处理文本和图像形式的prompt。具体而言，当输入包含文本和图像时，GPT-4 能生成相应的文本输出，如自然语言、代码等。在许多领域，包括带有文本和照片的文档、图表或屏幕截图等，GPT-4 都展现出了与纯文本输入类似的功能。此外，它还可以利用为纯文本语言模型开发的测试时间技术进行增强，如少样本和思维链 prompt。GPT-4是世界第一款强有力的AI系统，会掀起一场新的工业革命，带来新的社会分工，创造新的应用场景，全面提升人类的智能化水平。

　　如今，虽然大模型已经建立了基础，但真正的挑战仍然在于如何将其应用到实际场景中。

　　例如，在自动驾驶领域，需要考虑不同的天气条件、不同的交通状况等复杂情况，这些都需要AI技术在实际应用中不断实现迭代和优化。此外，AI在推理、判断和创造等方面仍面临许多挑战，实现真正的智能仍然需要突破。因此，虽然大模型已经取得了重大进展，但AI的发展之路仍然任重而道远。

　　尽管ChatGPT（包括GPT4）是一个非常有用的工具，但它仍然存在许多问题。以下是一些经常出现的问题：

　　1)强语言，弱知识，“一本正经地胡说八道”：在回答问题时，ChatGPT很容易“胡说八道”，因为它的回答通常是基于大量的文本数据而生成的，而不是真正的知识。比如下面的问题：

　　A：不是同一个人，鲁迅和周树人是两个不同的人。鲁迅…而周树人(1895年1月25日-1968年11月6日)也是中国著名的现代作家和翻译家，代表作品有《春蚕》、《子夜》等

　　A：可以的，苹果手机和华为手机使用的充电器接口都是标准的USB接口，因此苹果手机的充电器也可以用来给华为手机充电。不过，请注意使用符合标准的充电器。

　　虽然AIGC跨模态生成技术的视觉效果令人惊叹，但在实际应用过程中存在一些信息不对称的问题。目前，多模态大模型在跨模态生成方面仍然存在一些不完善之处，需要进一步研究和优化。从文本到图像的生成方向，Stable Diffusion的研究发现提示词与输出之间存在着显著的组合泛化问题。例如，在输入“红草绿花”的情况下，输出结果可能会是相反，这表明AI模型对于语义的理解存在错误。同样，当输入“一匹马骑着宇航员的照片”时，输出结果可能会是宇航员骑着马的照片，这也暴露出模型在语义理解方面的不足之处。为了解决这些问题，需要进一步研究和优化多模态大模型，研究方向包括改进模型的组合泛化能力、提高模型对于语义的理解、以及优化跨模态生成结果的准确性等，以使得多模态大模型在实际应用中更加可靠和有效。

　　GPT4大模型发布，加速了AIGC多模态的发展，当然多模态大模型的发展在近年来取得了令人瞩目的进展，但是作为一项前沿技术，仍存在着一系列问题需要解决。其中一个重要问题就是对于多模态数据的理解还不够充分。多模态数据是指来自不同感官或媒介的数据，如图像、音频、文本等。虽然多模态大模型可以同时处理多种类型的数据，但是对于跨模态数据的融合、对齐等方面，仍需要进一步探索和优化。

　　首先，对于多模态数据中的事实知识的理解不足。在实际应用中，很多跨模态生成任务都需要丰富的知识库和背景知识支撑。例如，文本描述和图像生成任务需要对具体事物的特征进行深入了解，而涉及到自然语言的任务，则需要对语言语义的理解更加准确。因此，建立更为完整准确的知识库是非常重要的。

　　其次，常识储备不足也是多模态大模型的瓶颈之一。常识是解决现实问题的基础，而在跨模态生成任务中，常识更是不可或缺。例如，在利用AIGC中AI作画的Stable Diffusion 作图的一个图像描述中，描绘出“小狗在路边玩耍”的情境更加符合日常生活的常识，而非描述为“四条腿的动物在道路上移动”，这说明常识缺失直接影响模型的表现效果。

　　最后，逻辑推理能力也是多模态大模型需要改进的地方。在实际场景中，有很多跨模态生成任务，需要通过逻辑推理进行相关内容的理解和生成。例如，基于文本的图像生成任务需要根据文本中的描述进行相应的推理，以便生成一张完整的图像。而当前多模态大模型的逻辑推理能力仍有待提高，未来的研究应该注重逻辑推理技术的研究和优化，以提高模型的综合表现能力。

　　总之，多模态大模型的未来研究应该致力于处理多模态数据的全面理解，选取合适的知识库和常识库，探索逻辑推理技术等方向，以提高多模态大模型在跨模态生成领域的表现效果。

　　多模态大模型PaLM-E的出现，标志着计算语言学作为人工智能领域的重要分支进入了一个新的繁荣期。PaLM-E依赖于如此庞大的参数，初步实现了对机器人的操控，但其在实用性方面还有待提高。其中，空间范围、物品种类和任务规划复杂度等方面的限制是最为突出的。目前展示出来的演示，其空间范围封闭有限，物品种类数量有限，规划任务比较简单，操作任务也相对简单。这些限制的存在，让人们对PaLM-E在真实复杂场景中的实用价值产生了质疑。

　　此外，PaLM-E在使用过程中还存在一些技术问题，例如需要耗费大量的时间来调试和训练，同时还需强大的计算资源才能支持其正常运行。这些问题在实际应用中都会给使用者带来极大的不便和成本压力。因此，需要从技术上不断优化和改进PaLM-E，使它能够更好地适应复杂的应用场景，并且让成本更低、易用性更高。当然，尽管PaLM-E离实用级还有一定距离，但是可以相信，随着技术的不断发展和突破，PaLM-E将结合各种场景打破技术限制，真正走进人们的生活和工作中，发挥其巨大的实用价值。

　　在技术上，目前语言模型是基于统计的，这一机制导致回答偏差的存在，进而导致虚假信息传播的法律风险；数理领域中的生成内容错误较多，无法应用到银行、医院等专业性强的领域；模型仍不可解释与不可控，可能存在后门攻击、数据中毒、训练数据泄露等问题。在安全合规上，AIGC模型在训练过程中的数据使用合规问题、生成内容的知识产权问题，甚至是训练推理过程中带来的碳排放问题等，仍然存在很多挑战。

　　身处人工智能的下一个时代，我们不仅要拥抱变化，也要直视挑战。在技术方面，如何理解大模型的基本工作机制对模型安全与继续发展至关重要；除此之外，大模型训练与迁移流程优化是AI走向通用人工智能的关键。在技术发展的同时，AIGC的合规与治理应该引起重视。相信在不久的未来，AIGC将在更多领域大放异彩，也将开启云计算产业链新一轮的景气周期。

　　我打一个游戏，开局要选职业，不同的职业装备不同，法师是法杖配魂器，战士是长剑配盾牌，射手是长弓配箭矢，我选择一个职业，这就叫选择模型。

　　不同的武器有不同的属性，法杖有法力值，魂器有召唤力，长剑有攻击力，盾牌有防御值，长弓有韧性，箭矢有射速和重量，这些都叫做模型的参数。

　　游戏开始了，我不断的打怪，加点，调整属性点的分配方案，这叫做训练一个模型。最终通过不断地尝试各种点数分配方案，我找到了一个最佳方案，打怪再也不用师傅带了，这模型就算训练好了。后来我再优化了一下我的参数，我变得更厉害了，冲上了全服大榜，这就相当于参加Kaggle拿了个名次。

　　后来我发现了一个外挂，能让我拥有所有职业装备，我靠着外挂稳坐第一名，结果被其他玩家投诉，系统把我外挂禁了，我就再也没进过大榜，这就叫过拟合了。