生成式AI发展与监管白皮书①：新一轮人工智能革命下中国如何讲述发展故事

记者王俊冯恋阁实习生罗洛温泳珊林婉娜北京报道

(相关资料图)

编者按：自1956年“人工智能”的概念首次被提出已过60余年，此间，人工智能从虚化的代码逐渐转化成实践应用，催生出一批批商业故事。不过，人工智能规模化商用并非坦途，概念的火热一直以来未能助推技术突破与商业应用。

时间来到2022年，生成式AI发展为人工智能发展再注入一针强心剂。ChatGPT横空出世，被视为通用人工智能的起点和强人工智能的拐点，引发新一轮人工智能革命。人工智能发展似乎找到了自己的主流叙事。

不过，技术创新的同时也带来了监管难题。如何平衡发展与安全，中国正在摸索自己的AI治理路径。南财合规科技研究院与观韬中茂律师事务所推出《中国AI治理的独立思考——生成式人工智能发展与监管白皮书》，通过分析生成式AI的发展现状、政策导向、实操中面临的风险，以及各国的监管路径，以期为未来的AI治理提供有益思路。

2022年被认为是“生成式AI元年”，Dall-E2、Midjourney、Stable Diffusion等文生图应用的出现引起广泛关注；12月底，ChatGPT的横空出世更是使得生成式AI的风头一时无两。

自1956年概念的首次提出至今，人工智能技术已发展超60年。然而，时至今日，其仍未实现大规模应用。生成式AI的出现标志着人工智能进入了新纪元，机器开始能够模拟人类的创造性思维，并有望促进社会生产力的大幅跃进。

根据技术实现及应用路径，生成式AI可以细分为数据层、算力层、模型层和商业化应用层。数据层包括数据提供、数据分析以及标注等环节；算力层是AI训练的基础设施，包括数据中心、服务器，以及高性能的AI芯片；模型层位于生成式AI的中游，是生成式AI得以实现的关键环节；商业化应用层则涵盖文本、音频、图片、影片的生成等，是产业链的最下游，但也是AI能否大规模应用、能否真正创造价值的关键。

可以看到，2023年各类大模型井喷式爆发，上中下游产业链持续高涨，技术应用热潮席卷全球。

热潮之下，各国、地区对于AI规则的“军备竞赛”已然开始。当欧盟正试图通过专门的《人工智能法案》来展现他们对于生成式AI基于风险的治理思路时，中国在7月发布的《生成式人工智能服务管理暂行办法》则体现其对于生成式AI治理的不同思考。“发展”正逐渐成为中国AI治理的第一视角。

与此前的征求意见稿相比，《办法》有较大的思路调整，“坚持目标导向和问题导向”，单设了“技术发展与治理”章节，同时也新增了不少有力措施来鼓励生成式AI技术发展。

其背后所反映的，正是中国对于目前生成式AI发展、治理的独立思考。

本篇将分析目前中国生成式AI发展现状、面临的问题以及政策导向。

大模型“涌现” 百模大战上演

大模型是本轮生成式AI竞赛的杀手锏。各个科技公司加码大模型，上演“百模大战”。

《中国人工智能大模型地图研究报告》显示，截至今年5月28日，中国10亿参数规模以上的大模型已发布79个。而美国和中国就占全球已发布大模型总量的80%以上。

中国大模型不断涌现，既有实力雄厚的互联网平台企业：百度、阿里、华为等互联网公司发布 “文心一言”、 “通义千问”及华为盘古大模型等；也有人工智能新秀，比如澜舟科技的孟子GPT、智谱AI的ChatGLM、科大讯飞的星火大模型等。

一批高校、科研院所也相继入局，清华大学发布大模型GLM-130B、复旦大学则发布大语言模型MOSS；上海人工智能实验室发布天气预报大模型“风乌”、北京智源人工智能研究院发布“悟道3.0”等。

在教育和新能源汽车行业，一些企业选择布局与原有业务相适应的大模型。如网易有道为教育场景自研的类ChatGPT模型“子曰”，学而思的自研数学大模型MathGPT也预计在年内推出。新能源车企如理想汽车已经发布了自研MindGPT，将应用于车载AI助手“理想同学”，而蔚来、小鹏等车企也已在申请GPT商标。在医疗领域，上海联通、华山医院联合开发的Uni-talk、医联“MedGPT”、云知声的“山海”等也相继登场。

处于核心的模型层，目前可分为通用大模型和行业大模型。通用大模型能够处理多种任务和应用于不同领域，是资金、资源雄厚的科技巨头优选；行业大模型则是针对特定领域或任务进行优化设计的模型，基于自建模型或利用通用大模型，引入行业语料进行模型深度训练，以提升对特定行业/领域应用场景的支撑能力。

由于大模型在资金、算力、语料训练集等方面存在较高门槛，垂直大模型以其成本低，部署升级灵活的优势成为新赛道；不过，垂直大模型需要专门的、行业深度训练的数据以更贴合业务；还需更好地与企业内部知识库进行配合，才能做到实时迭代更新。

值得注意的是，大模型的门槛逐渐降低。近日，脸书母公司Meta宣布将推出开源大型语言模型Llama 2，可免费用于研究和商业用途。

开源为更多想要入局者提供了想象空间。开源平台和开源生态将助推大模型的快速迭代与落地应用，尤其是对于缺少算力和资金的中小企业而言，开源打开了一个充满机会的世界。

中国也在积极建设人工智能生态。科技部副部长吴朝晖在2023中关村论坛上表示，中国坚持开源协作，加强大模型技术持续创新，协同解决透明性、稳定性等共性问题，进一步推动算力资源和数字资源开放共享，加快形成大模型的产业生态。

商业化落地才能创造价值

大模型持续火热，业内更关心应用落地。只有让大模型与千行百业的具体业务场景结合，才能产生具体应用价值。

据南财合规科技研究院梳理发现，大模型技术比较热门的落地领域包括办公软件、社交文娱、商业营销、家庭助理和金融等。

这些领域内，少部分公司选择自主部署研发模型，更多的公司则选择接入较为成熟的大模型（类ChatGPT产品），以直接赋能其原有产品和服务。例如，在办公领域，微软Microsoft 365、字节飞书“My AI”、金山WPS等均宣布已接入大模型。社交文娱方向，出现了AI搜索引擎如微软必应、谷歌Magi，还有应用于游戏影视的英伟达AI智能游戏助手GeForceRTXR.O.N.、Adobe的Premiere Pro等。在家庭场景，AI也充当起家庭管家、私人家教、智能汽车助手，如阿里就率先将AI大模型接入了智能音箱天猫精灵。

在商业营销方向，多种类ChatGPT产品涵盖智能客服、推荐算法、虚拟人直播、广告策划等具体应用场景。类ChatGPT产品正在逐步渗透到生产和生活的各个环节。

可以看出，生成式AI的商业化应用第一类场景为提升生产工作效率的通用工具，通过生成式AI提升内容供给速度、降低内容创作门槛，从而使得人工资源能够更多地投入到高价值的工作及创作流程中，提升整体工作效率。第二类场景则是可能改变行业格局的场景应用，比如有场景的C端，有数据的B端，带来一个增量产业的崛起（如教育、医疗分诊，个性化生成，高频时效交互）等。

不过，商业落地是国内人工智能发展面临的困境之一，大模型发展只有做到商业化、工程化、应用场景化，才能真正赋能产业。

近期，创业者服务平台GoDaddy对全美1003家小型企业的调查数据显示，ChatGPT以70%的应用率成为美国小型企业应用最多的生成式AI产品；38%的受访者，在过去几个月里尝试过生成式AI；营销、内容创作、商业建议是企业应用生成式AI最多的3个用例；75%受访者非常满意生成式AI在业务中的表现。

对比之下，国内大模型远没有达到可商用化的程度，或是能深度切入具体应用场景。目前大模型落地主要以价值增强和效率提升为主，而商业模式层面的落地仍在探索中。

大模型能否和业务充分结合，从而真正解决业务问题，是决定AI能否实现经济价值的关键因素。只有紧贴业务的AI战略设计、完善的配套架构、充足的AI人才及健全的内部培养机制，才能使AI与业务发展需求充分融合，最大化实现经济收益。

各地的人工智能相关政策也聚焦到应用层。5月发布的《北京市加快建设具有全球影响力的人工智能创新策源地实施方案（2023-2025年）》提到，要发挥各区产业特色和资源优势，结合人工智能技术特点，围绕经济社会发展、科学研究发现、重大民生需求等，形成一批示范性强、影响力大、带动性广的重大应用场景。7月发布的《上海市推动人工智能大模型创新发展的若干措施》中提及示范应用推进计划，要加强大模型在智能制造、教育教学、科技金融、设计创意、科学智能等垂直领域的深度应用和标杆场景打造。

加强基础技术的自主创新

人工智能需要GPU算力、网络及存储等硬件基础设施的全方位支撑。《办法》指出，鼓励生成式AI算法、框架、芯片及配套软件平台等基础技术的自主创新，鼓励平等互利开展国际交流与合作，参与生成式AI相关国际规则制定。

《2023爱分析·AIGC厂商全景报告》指出，在中美博弈大背景下，A100、H100为代表的芯片被美国列入禁止出口商品名单，加之国内信创进展和适配需要时间，算力问题成为中国人工智能发展的掣肘因素。

国内过去在互联网及移动互联网时代所积累的云计算、数据中心、算力中心等领先全球的数字化基础设施，为生成式AI落地运行提供了坚实基础。4月，科技部启动国家超算互联网部署工作。根据部署，国家超算互联网通过算力网络将全国众多超算中心连接起来，用互联网思维运营超算中心，构建一体化算力服务平台，实现算力资源统筹调度，降低超算应用门槛，带动计算技术向更高水平发展。

生成式AI的训练和研发需要大量的基础设施和基础资源支持。《办法》提出，推动生成式AI基础设施和公共训练数据资源平台建设，促进算力资源协同共享，提升算力资源利用效能。

平台的建设有助于更好地协调和优化训练资源，更好地集中精力完成技术层面的攻关和突破。

推动公共数据有序开放，扩展高质量的训练数据资源也是必须要划出的重点。“大模型时代，得数据者得天下。”一方面，训练数据是大模型训练的基石和燃料，如果没有数据，大模型的训练就无法开展和持续；另一方面，当前技术领域的研究显示，各家大模型在算法层区别并不大，并且具有同质化的趋势。在此背景下，训练数据就成了真正区分且影响大模型性能的重要因素之一。

从各地实践也可以看出，加码训练高质量数据集建设已成为重要方向。

北京5月印发的《北京市加快建设具有全球影响力的人工智能创新策源地实施方案（2023-2025年）》中就提到，加强公共数据开放共享，包括动态更新公共数据开放计划，加快构建高质量人工智能训练数据集等。6月，深圳发布的《深圳市加快推动人工智能高质量发展高水平应用行动方案（2023—2024年）》中也提出，要搭建全市公共数据开放运营平台，建立多模态公共数据集，打造高质量中文语料数据等。

目前各地出台了不少关于公共数据开放利用的条例，利用公共数据投喂人工智能，应按照有条件开放、无条件开放或禁止开放的不同方式进行。不过，公共数据开放存在较多阻力，开放的数据范围和质量不够。接下来需推动有序开放，亟待分类分级，发挥公共数据红利，探索契合公共数据价值利用规律的开放之道。

白皮书出品团队：南财合规科技研究院X观韬中茂律师事务所

白皮书撰写者：王俊冯恋阁郑雪王渝伟杨欣如周丹钱雨晴温泳珊林婉娜罗洛

（陆钇潼王敏朱敏婕对白皮书撰写亦有贡献）

生成式AI发展与监管白皮书①：新一轮人工智能革命下 中国如何讲述发展故事

加强基础技术的自主创新

生成式AI发展与监管白皮书①：新一轮人工智能革命下中国如何讲述发展故事