在发布“通义千问”不到两个月后,阿里云基于大模型在AI音视频赛道打出了一枪。
6月1日,阿里云宣布通义大模型进展,聚焦音视频内容的AI新品“通义听悟”正式上线,成为国内首个开放公测的大模型应用产品。
(资料图片仅供参考)
今年以来,国产AI大模型赛道热闹非凡,各家厂商、机构的大模型接踵而至,应接不暇。最新数据显示,截至目前,我国10亿级参数规模以上大模型已发布79个。
相比于集体宣布抢发AI大模型,未来,如何基于大模型研发针对行业细分领域的垂直的模型更加重要。各路人马已有动向。“百模大战”的下一个新擂台,已然搭起。
国内首个开放公测大模型应用产品
开会AI帮忙记录,还能帮忙总结、提取重点和整理待办事项?
6月1日,阿里云宣布通义大模型进展,聚焦音视频内容的AI新品“通义听悟”正式上线,成为国内首个开放公测的大模型应用产品。
从现场演示可以看到,通义听悟接入了通义千问大模型的理解与摘要能力,能够完成对音视频内容的转写、检索、摘要和整理,比如用大模型自动做笔记、整理访谈、提取PPT等。听悟还与阿里云盘打通,同时支持云盘导入和本地上传。
阿里云CTO周靖人介绍,听悟集成了阿里最先进的语音和语言技术。其内置阿里新一代工业级语音识别模型,识别准确率极高;融合自研语音语义多模态说话人算法,能对10人以上说话场景进行角色区分;接入通义千问大模型后,能够对上万字的音视频内容进行摘要总结,支持跨多音视频内容的精准问答理解。
听悟技术负责人鄢志杰向21世纪经济报道记者表示,通义听悟的前身是阿里云内部一个名为“听悟”的产品,主要为投资部、HR等部门做项目会议的音频转写功能,在2022年,这款产品的潜力逐步被挖掘,内部开始思考其工具属性是不是要发生变化。
“工具是什么呢?人还是支配他的,基本上它不会比你更聪明,也不会比你懂得更多。但是,大模型能力跟工具应用相结合变成助手以后,它甚至能给到建议启发你,知晓你不知道的知识,留意到你之前没有留意的细节。”鄢志杰说。
继此前阿里云降价之后,此次听悟同样推出免费使用体验,听悟用户可通过每日登陆等多种任务领取免费转写时长。公测期间,阿里云官方微博、微信及各大平台社区还会发放大量20小时转写口令码,用户获得的福利权益可累加,一年内有效,免费时长可高达100小时以上。
周靖人表示,听悟发布公测版后,希望更多人能够体验到该产品,真正把大模型的能力变成工作学习的AI助手。在接下来的阶段,听悟也将陆续推出增强版,到时候会有一些商业化的安排。
“百模”推出之后
ChatGPT带火了国内AI大模型市场,5月28日发布的《中国人工智能大模型地图研究报告》显示,截至目前,我国10亿级参数规模以上大模型已发布79个。距离实现真正的“百模”,已然不远。
此前,中国工程院院士、清华大学计算机科学与技术系教授郑纬民接受21世纪经济报道记者采访时,ChatGPT的爆红源于其能流畅地与人对话、写诗,甚至作画,但未来AI大模型所带来的贡献应不止于此,如何基于大模型研发针对行业细分领域的垂直的模型更加重要。
各家企业、机构也在紧锣密鼓地发展大模型、打磨基于大模型的应用。
阿里云推出通义听悟时,距离“通义千问”的发布还不到两个月的时间。周靖人对21世纪经济报道记者表示,目前外界对大模型要求很高,从通义千问发布以来,阿里云也陆陆续续做了大量工作,并在全国开始部署AI的模型。同时,在云的底层通过一系列模型优化不断降低模型使用的成本,降低模型所使用的资源,只有这样能够让模型真正意义大规模去服务社会。
对比阿里云发布国内首个开放公测的大模型应用产品,百度则带着国内首个大模型基金而来。
5月31日,百度正式宣布设立规模为10亿元的“百度文心投资基金”,重点投资孵化大模型领域的优质创业企业,为其提供包括资金、技术、人才在内的一站式资源。另外,创始人李彦宏正式宣布启动百度“文心杯”创业大赛,致力于寻找大模型时代的“game-changing founder”,参赛创业者将有机会获得来自百度集团的1000万元投资。
在最近的财报电话会议上,腾讯方面也表示AI基础模型“混元”取得良好进展,模型构建进展顺利。其业务部门称,目前正积极对训练部门及生产线扩容,相信未来人工智能将在不同领域有所应用。
据悉,腾讯已成立类ChatGPT对话式产品项目组“混元助手”。该项目组将联合腾讯内部多方团队构建大参数语言模型,目标是通过性能稳定的强化学习算法训练,完善腾讯智能助手工具,打造腾讯智能大助手,并能成为国内的业界标杆。