“你会为一个闲聊的玩具买单吗?”
这是刚刚过去的世界人工智能大会上,浙江大学教授赵俊博提出的对聊天机器人的“灵魂拷问”。事实上,关于大模型的商业化和落地,几乎是每一场论坛都被提及的问题。
“大家都看到了大模型的可能性,但是这个落地到底能有多大助力,还是未知数,”赵俊博表示,“如何让用户在大模型在某一场景下感受到其能力,并且愿意为它付费,这是巨大机会也是巨大挑战。”
如果在WAIC的展览上走一圈,你会发现大模型随处可见,目不暇接,但走完后,很难说会对哪一个大模型的应用留下特别深刻的印象。百模大战的背景下,同质化成为了一个显性的问题,此外,在如此大的投入下,企业应该如何建立竞争壁垒,在未来的洗牌阶段生存下来,也是应该考虑的问题。
多位大模型从业者在接受第一财经记者采访时表示,现在如果只是做出一个“聊得还不错”的大模型,难度没那么大,同时各家的区别并不大,真正有区分度的是解答数学题这类复杂推理的题目,这里面才真正体现了模型的思维能力。与此同时,面对同质化,不同的企业应当有对自身定位和资源禀赋的认真思考。
群雄逐鹿的大模型时代
过去的半年,通用大模型和垂直大模型的创业如火如荼,据科技部新一代人工智能发展研究中心5月底发布的《中国人工智能大模型地图研究报告》,中国10亿以上参数规模的大模型已经发布了79个。
在2023 年H1 结束后,启明创投基于与近200 家生成式AI 企业的交流做了一个总结。在这些生成式AI 新公司中,多模态应用方向占比达到44%,而为提供支持的底层技术企业共占比29%,还有27%做的是语言类应用。
在200 余家公司的具体方向中,生产力工具占得最多,高达46%,包括文案写作、图像生成、视频脚本生成、3D 资产生成等,另外ChatBot 占了8%。
衔远科技创始人周伯文对第一财经表示,目前看来,各家大模型的总体差距不大,还没有出现具备明显优势的一方,均处于对下一代AI技术研发与应用落地的探索阶段。无论是百度、阿里等大厂,还是诸多创业公司,整体的发展策略还是以“追赶”为先。
在WAIC期间,上海AI实验室发布了书生通用大模型,谈及与其他大模型不一样的地方,上海AI实验室教授林达华告诉第一财经,实验室非常关注模型核心内在的思维能力,“就聊天这个事情,从目前大家已经认知到的技术路径来说,要调出一个感觉还可以的模型没有那么困难,但是真正难的是要解非常难的数学题,一些复杂推理的题目。”
在6月,上海AI实验室已经首发过一次书生·浦语模型,林达华表示,当时模型的数理能力还在30分左右,这个数字是相当低的,但现在已经到了60分了,而这背后的支撑的条件,一个是从2K做到8K的语境长度升级,其次是一些微调和更高质量的语料训练。
不过,即使是该实验室现在发布的模型,与GPT4仍然有着很大的距离。
国内的大模型发展速度已经非常快,在林达华看来,整体的一个感觉是,最头部的企业与GPT3.5的距离没有很大,背后的一个点在于,OpenAI在过往的一些论文里对GPT3.5的技术路径大体有所公开,不过,从GPT3.5如何到GPT4的水平,到现在OpenAI没有公布任何细节。
国内训练大模型有不少的短板,此前很多观点提到了中文语料的缺乏,但林达华认为,语料需要更好的技术清洗,但这并不是大的问题,最根本的是技术上的壁垒。
在用户与大模型的互动中,经常会发现生成出来的东西哭笑不得、张冠李戴,例如让AI画一张车水马龙的图片,结果AI确实画了一匹马、一条龙还有水;红烧狮子头画成了一张红色的动物狮子的脑袋,这是模型怎么样来保证生成结果的可靠性和准确性问题,林达华表示,这其实是目前行业共同面临的阻碍。
包括此前的ChatGPT,在生成结果的准确性方面还有很大的挑战,但在GPT4版本中,已经能够做得相对较好,林达华解释,在技术上是有壁垒的,需要后来者大量的试错,经由不同的方案逐渐去靠近准确性。
网梯科技创始人张震提及自己的一个观察是,在2022年12月用ChatGPT,感觉它还在一本正经地胡说八道,仅仅只是及格线,而GPT4已经可以做到80分。
他举例:“测国内的模型,你问它公鸡蛋怎么做才好吃?所有的模型都会一本正经地说公鸡蛋要蒸、炸、炒、煮,包括拿小学基本的逻辑题测国内的模型,只要那个题目不在之前的题库里,它都听不懂,唯一能听懂的就是GPT4。”在全面测试了国内国际全部模型后,张震认为,如果是在教育领域做“老师”,GPT4是有希望的,目前国内的其他模型还没有可能性,它们大都在教育领域缺乏基本的常识和推理能力。
由于GPT4 未公开算法,作为追赶者的企业需要创造性地提出自研算法才能研发出达到或超过GPT4 效果的通用大模型。基于以上的判断,对于目前大模型的井喷式发布,行业普遍认可和乐观。
商汤科技智能产业研究院院长田丰此前就对第一财经提到,“必须要通过竞争才能出来一个更优秀的大模型,美国在人工智能仍排在第一,我们在追赶的状态,这个时候还是得去做,要重视或者鼓励这种基础科研的创新。”他认为,这是一个行业必经的历程。
周伯文认为,良性竞争是发展的助推器。“如果只有一个通用大模型思路,就没有办法看到不同技术方向的迭代与对比。就好比如果没有Bert与GPT竞争,GPT也不会发展得这么快。”商业应用、学术创新和技术生态,都需要多元化,不能完全集中在一个大模型之上,也不应都用一种思路去做事情。
但他同时也提到,不建议所有的企业扎堆,尤其是做基础的模型,消耗资源很大,且最后市场化和商业化的风险也存在很多不明朗的地方。不过长远来看,算力方面的“浪费”会持续收窄,因为大模型最重要的是能力,而非参数规模。生成式AI未必需要大规模的模型参数,还有大量的空间去压缩。
落地需深挖渠、高筑墙
最近半年,张震每周要参加1-2次的AI模型研讨会,在WAIC期间,关于大模型、生成式AI等相关论坛就有几十余场。
张震总结了研讨会的频率与行业发展阶段的规律,“看论坛开的频率就知道这个行业是什么阶段,频率特别高就说明在探索阶段。”在毕业之前,张震在学校做过电子商务创业,当时创业失败,很多人请他做专家讲授失败的经验,“这样的论坛一直持续到2004年就没有了,因为在国内基本成熟了。”在他看来,现在大模型行业还处于初期不成熟的阶段。
张震带领的网梯科技,正尝试将大模型技术应用在教育里,他的期待是18个月可以产生个性化的学习导师。“美版iPhone上面已经出现人机交互的APP,可以用英语回答任何问题。”张震让他的女儿做了个测试,“女儿说它话真多,无所不知,无所不晓。”他认为,个性化人工智能导师在未来几年会出现,而且深入到每个人的家庭和生活。
“我自己的判断依据是,大模型是操作系统,所以国内只要没有实力挑战操作系统的公司,在两年之后都会销声匿迹,都会变成每个行业的应用公司,在这个背景下,深入行业,深入应用,我觉得是未来发展的方向。”张震表示,大模型改变了教育领域里的计算结构,从过去的CPU+操作系统+应用,变成了GPU+大模型+应用。
应用、落地也是在WAIC期间经常被与会嘉宾提及的词。“任何的技术,无论是大模型还是过往的深度学习,一个技术它有生命力,一定是要通过落地在实际的应用中产生价值。”周伯文对第一财经表示。
周伯文认为,中国生成式人工智能需要探索一条新的道路,即垂直整合从自有基础大模型到应用、到终端用户的全场景闭环,以实现生成式 AI 技术与商业价值“双落地”。未来,大模型领域的企业还需深挖渠、广积粮、高筑墙,锚定适合的行业,从创意工具走向可控性极强的生产力工具,建立自己的壁垒。
在有市场压力的情况下,从企业的角度,周伯文的建议是先把价值闭环摸清楚,“从开源的基础模型出发,先去构建整体的价值闭环,把商业形态价值点先摸清楚了之后,再回来去看整个闭环哪里还存在技术上的短板,这样就更有针对性的投入技术研发的力量,而不至于大家都重复投入到基础模型上面。”
此前还有观点认为,大模型领域是赢者通吃的游戏,林达华认为,可能会有少数的机构有能力做出高质量的基座模式,但会有非常多的企业和研究机构、团队,能够在这个基础之上深入到不同行业、不同需求场景里面,打造出真正有创造性符合需求的产品,“这其实是一个非常分散的一个市场,很难一个公司有足够多的单位能够把落地场景做得很丰富。”
他的建议是,不同的企业应该有对自己定位和资源禀赋的认真思考,基于我们的生产生活需求非常复杂,最终一定会形成新的不同的分工格局。
据启明创投报告,当前生成式AI市场处于技术主导的早期阶段,未来存在千亿美元市值的平台性企业的机会。而那些简单的文本处理和套壳的Chatbot,将很快成为红海。创业公司要从取悦早期用户的兴奋中冷静下来,构筑更高的壁垒。绝大多数用户并不仅仅满足获取可能与事实不符的娱乐性对话,如何把知识嵌入到大模型的需求非常迫切,当前相关技术和产品尚供给不足,仍处于蓝海状态。
而在通用大模型创业公司方兴未艾的同时,许多面向特定行业的垂直大模型公司开始出现,主要聚焦在医疗、电商、科研、工业、自动驾驶和机器人等方向。具备行业属性的智能助手方向的创业企业开始增加,如求职、招聘、求学、法律、健康、购物、企业知识问答等方向的个人助手和员工助手方向的创业公司持续涌现。
而发出“你会为一个闲聊的玩具买单吗”疑问的赵俊博,其团队正在尝试用大语言模型TableGPT处理表格。他们想做读懂表格的大语言模型,根据表格和数据库内容内容聊天,绝非闲聊,而是偏向于完成实际的工作内容,目标整体用户包括企业管理者、数据分析师、学生等等,例如“零门槛让你玩转表格”。