当下的AI大模型,可谓百花齐放。据《中国人工智能大模型地图研究报告》统计,截至5月底,国内已发布的10亿参数规模以上的大模型达79个。越来越多大模型的推出,在推动AI技术进一步升温的同时,也开始催生一些冷思考——我们到底需要多少以及需要怎样的AI大模型?
(相关资料图)
智源研究院院长黄铁军近日接受21世纪经济报道采访时指出,未来的大模型生态只会有屈指可数的大模型,现在的几十上百个模型,都只是技术迭代的中间产品。“到那个时候,除了头部的几个大模型外,其他的企业则需要在生态里找到自己的位置,这个位置不一定是做大模型,只要能在生态形成后的某个环节做好,也能够实现价值”。
他认为,现阶段对于创业者来说,用通用的基础模型加上专门领域的数据做出垂类模型,也未尝不可。但未来随着通用模型越来越强,变得像现在的互联网一样成为无处不在的服务时,“基础模型+专业”也会成为最典型的模式。
企业有很多需要智能化AI能力的场景,比如客服场景、智能营销场景、甚至工业智能场景,但是,在应用AI能力时,企业也存在不同的顾虑。
基于大模型有很多随机与概率作为理论的基础,通用大模型应用中“杜撰”的问题,很难百分之百消灭。另外,企业出于对自身数据隐私保护,也使得大模型技术在行业落地中,需要进一步根据场景、数据做落地改造。企业对行业应用模型落地、有效的训练工具非常迫切。
比如金融机构的客服场景,相对酷炫的对话能力,它更需要基于自家数据参数精准训练,因为它对问答准确率的要求很高,失误将带来巨大风险。同时,金融行业企业更看重数据安全性。
一家在线教育公司技术负责人对记者表示,其公司IT部门几十号人正在基于开源大模型训练客服应用对话工具,除了投入大量算力训练成本,还遇到了不少技术和业务问题。
其技术负责人表示:“考虑到商业竞争,同行业公司在部署大模型时,都会要求数据本地化,不会上传到公域去训练,所以部署通用大模型并不能直接解决问题;在用自己数据语料库做大模型训练的过程中,也遇到有非常多问答杜撰的现象,真正落到应用上,我觉得真正需要考虑的不是模型大小,而是解决问题的能力。”
一家金融科技公司总经理对21世纪经济报道记者表示:“目前,基于发布的通用大模型开发应用,成本也是很高的。最近有询问一家国内知名公司的大模型产品服务,基础模型调用费用已经达到1000万以上,如果委托训练还要增加几百万成本,我们考虑自己做开发,不过目前市场生态还不完整,希望有更多大模型训练工具出现。”
当大模型变成了一种通用的基础能力,市场真正比拼的将是如何更好对其加以利用。
360集团创始人周鸿祎近日也表达了同样的观点。“ChatGPT刚出现时,世界都被其所惊艳,尤其是进化到4.0以后,它对很多通用问题的回答都已经媲美甚至超越人类。但是,通过几个月的发展,大家也发现有太多垂直领域仍然是GPT无法解决的。这说明,GPT只是给业界指出了一个正确的方向,未来大模型产业的发展,还是要往垂直化、产业化、企业化甚至个人化的方向发展”。
正因如此,很多科技巨头已经开始采取“通用大模型+行业大模型”并行发展的策略。比如谷歌发布的大模型策略,就包括各种尺寸不一的大模型;Meta发布的LLaMA开源大模型中,一个方向是把大模型越做越大,另一个方向则是把大模型做小,要把它用在垂直领域。
在国内,部分头部科技企业也在采取同样的发展策略。据了解,6月19日,腾讯将举行一场行业大模型技术峰会,经过确认后了解到,并非市场猜测的——腾讯将揭开类似ChatGPT产品的面纱,而是面向行业大模型的应用落地。侧重点在公布腾讯云在行业大模型方面的技术方案,以及在智能应用升级、产业客户场景的应用进展,如何降低企业构建大模型及AI应用门槛。
在此前4月,腾讯发布了的面向大模型训练的新一代HCC高性能计算集群,整体性能比过去提升了3倍,并通过腾讯云MaaS面向企业输出模型训练相关服务。腾讯在策略上选择了通用大模型和行业大模型两条腿走路,目前还没有急于推出聊天助手产品。这次峰会上,进一步对外释放行业大模型服务能力,也可以看出,目前企业对大模型实际落地的需求是非常迫切的。
这也是国内企业共同看重的方向,阿里巴巴此前发布了语言大模型“通义千问”,应用方向上也瞄准了200多个业务场景。
中山大学人工智能学院百人计划副教授赵宝全近日在接受记者采访时也提出,除了通用的大模型之外,会出现更多不具备从头到尾做大模型能力的公司,他们会结合行业的数据、行业的特点,开发出具备行业konwhow的大模型,这些大模型可能参数量没有通用大模型那么大,但是它在解决行业问题上,甚至会比通用大模型更加出色。