AI大模型的冷思考

2023-07-09 17:21:00 来源： 21世纪经济报道

　　作者丨白杨

　　编辑丨骆一帆

　　在刚刚结束的2023世界人工智能大会期间，“AI大模型”无疑是最火热的话题。然而，相较于年初因ChatGPT的出现而引发的声声惊叹，现在，业内对于AI大模型也有了更多冷静的思考。

　　一方面，AI大模型带来的变革性突破已经形成共识。有人称其是“百年不遇，类似工业革命级的历史机遇”；也有人将其直接对标电力和计算机的发明，并认为更具颠覆性；还有人认为大模型将催生比移动互联网大十倍的平台机会……总而言之，AI大模型正拉开一个新时代的序幕。

　　但另一方面，置身新时代浪潮下，如何拥抱AI大模型，也成为摆在所有企业面前的相同命题。过去半年，国内发布的10亿参数规模以上的大模型已超80个，业界对于大模型的狂热由此可见一斑。但狂热过后，人们也逐渐意识到，大模型带来的变革并不该局限于大模型本身。

　　就像ChatGPT在进化到4.0时，展现出了几乎无所不知、无所不能的能力，但经过几个月的发展，人们却发现有很多垂直领域的问题它仍然无法解决。所以，GPT的成功，确实给业界指明了一个方向，但未来大模型产业的发展，不会只是“大模型”的进化。

　　正因如此，在世界人工智能大会上，关于AI大模型也有了更多维度的思考，可以简单概括为通用大模型、行业大模型和AI infra（AI架构）。这是围绕AI大模型衍生出来的三个重要方向，其中，通用大模型作为整个产业发展的基础，其重要性无需赘言，中国也需要更多企业加入进行前沿探索。

　　而行业大模型和AI infra是从加速大模型落地的角度出发，行业大模型解决的是大模型应用的问题，包括计算、存储、网络等在内的AI infra则代表着大模型发展的基础设施。近段时间，这两个方向也成为行业的焦点，毕竟，它们将直接推动大模型的落地和应用。

　　需要可用的大模型

　　市场对于大模型的需求，从企业视角更容易观察和理解。某职业教育公司的负责人张晓明（化名）向记者表示，在去年12月份看到ChatGPT表现出的对话能力后，他就觉得这在公司很多业务场景都能进行应用，比如用户运营、客服等。

　　一开始，该公司也尝试接入ChatGPT的API，基于它的模型做微调。但是效果却不理想，“主要还是准确度的问题，如果模型提供的数据不准确，那在我们实际的业务场景中就很难落地。”张晓明说道，而且接入别人的模型，在数据安全方面也存在一些风险。

　　因此，张晓明很快就调整了思路，开始基于开源大模型，用自己的数据进行训练。从效果上来看，自己训练的大模型要比直接接入其他模型好很多，而且在数据更新方面，也更加便捷。

　　从70亿到130亿，现在该公司训练的模型参数已经达到300亿，但这也意味着更高的成本投入。据张晓明透露，目前公司做AI大模型相关工作的团队人数有五六十人，在不考虑人力成本的情况下，训练大模型仅云服务和硬件成本，就比原来提升了百分之二三十。

　　对于AI大模型未来的发展，张晓明认为，因为每家企业的业务都不同，而且最核心的业务数据都掌握在企业自己手中，所以未来最可能的模式就是模型能力+企业数据的结合。

　　张晓明同时表示，对于行业现在热议的行业大模型，他也十分期待。“自己训练大模型确实成本很高，如果云厂商能够提供一些服务，让企业可以用自己的数据训练模型，同时成本更低，且能支持大规模的自动伸缩，那对企业来说，也会是一种更佳的选择。”

　　对企业而言，真正可用的大模型需要足够的精准度，也需要懂行业，还要能保证数据安全和可持续迭代，在此基础上，成本则是越低越好。所以，基于行业大模型构建自己的专属模型，也成为企业更优的选项。

　　云厂商的新战场

　　正是因为看到了企业市场的需求，云厂商们也纷纷开始在行业大模型上发力。目前，包括阿里云、腾讯云、华为云等在内的头部云厂商均已经发布了自己行业大模型相关的解决方案。

　　比如7月7日，华为在发布盘古大模型3.0版本时表示，华为云既可以提供使用行业公开数据训练的行业通用大模型，也可以基于行业客户的自有数据，为客户训练自己的专有大模型。

　　而腾讯云在6月中旬也对外公布了其MaaS（Model-as-a-Service）能力全景图。据介绍，腾讯云面向客户输出的MaaS能力，可以满足客户模型预训练、模型精调、智能应用开发等多样化需求。

　　当然，无论是通用大模型还是行业大模型，AI infra都是最核心的底层基础设施，而这，也是云厂商聚焦的新战场。阿里云智能集团CTO周靖人在接受媒体采访时指出，动辄超千亿参数的大模型研发，不是单一的算法问题，也不是靠简单堆积GPU就能实现的。大模型的研发是囊括了底层算力、网络、存储、大数据、AI框架、AI模型等复杂技术的系统性工程，需要AI和云计算的全栈技术能力。

　　中国工程院院士、紫金山实验室主任刘韵洁近日在一次公开演讲也提到，大模型对算力的需求非常大，除了算力芯片外，网络性能也同样重要。其列举的试验数据显示，网络传输丢包率为1%时，传输效率下降50%，如果丢包率达到2%，这个传输效率等于0。因此，刘韵洁也提出，需要一个确定性的网络来保证大模型训练。

　　腾讯副总裁、腾讯政企业务总裁李强在世界人工智能大会上提出相同的观点，他说，大模型时代，数据、网络、算力构成了底层基础设施的“铁三角”。所以除了提供 MaaS 服务，腾讯云也在通过云服务的方式，为行业大模型的打造提供基础设施服务。

　　近一个月内，腾讯云相继披露了其自研的星脉高性能计算网络和向量数据库。据李强介绍，星脉高性能计算网络通过软硬一体的升级和创新，可将AI大模型通信性能提升十倍，而向量数据库可以将数据接入大模型的效率提升十倍。

　　大模型的产业落地是一个系统化工程，每个环节都至关重要，而对云厂商来说，帮助千行百业去拥抱大模型，也是他们正迎来的巨大产业机遇。

关注同花顺财经（ths518），获取更多机会

0人

车企上半年业绩整体向好

中国锂电产业加速全球布局

24小时播报>>

我的自选股自选股新闻

代码\|股票名称	最新	涨跌幅

AI大模型的冷思考

网站地图