Kimi爆火，中国大模型何时商业落地？

2024-03-30 01:49 由环球时报发表于 #国际

【环球时报记者陈子帅杨沙沙马梦阳】编者的话：一款擅长处理长文本的国产大模型日前引发广泛关注。据香港《南华早报》报道，中国人工智能公司“月之暗面”（Moonshot AI）宣布旗下大模型Kimi已经能够处理200万汉字的无损上下文，比去年10月时20万汉字的水平有了明显突破。对于Kimi展示的能力，市场给予较高评价，有观点认为，Kimi受关注度如此之高，是因为在同质化严重的大模型赛道里，它看起来相对“小众”；但也有人称，大模型的真正价值要体现在与产业的结合上。那么，Kimi是“实火”还是“虚火”？它能否成为一个预示中国大模型从研发走向商业落地的风向标？对此，《环球时报》记者进行了采访和调查。

揭秘长文本能力背后

“文件，拖进来；网址，发出来”——Kimi大模型的首页上写着这样一段话，似乎在告诉用户，它的主营业务是分析长文本。《环球时报》记者按照提示，将一篇包含图片、数据表格和公式的英文论文发给Kimi，它很快就向记者总结了这篇论文在研究什么以及有哪些创新观点。根据Kimi的说法，它最擅长为科研人员、大学生和律师等梳理资料并给出分析。“Kimi的特别之处在于它非常善于理解人们所说的话，并能以合理的方式做出回应。”科技新闻网站Dataconomy如此评价道。

Kimi究竟是如何做到这些的？大模型的底层逻辑是：预测下一个“token”（可以简单理解为“字”或“词”）。按此逻辑，大模型在预测时，考虑的前文（上下文窗口）范围越长，就越可能得到更准的结果。例如，如果前文只有一个“时”字，那就有“时间”“时空”等很多答案，但如果前文是“1993年1月在北京创办的环球时”，那模型预测出下一个字是“报”的概率就高了很多倍。

“月之暗面”公司的工作人员在接受《环球时报》记者采访时表示，上下文窗口的长度很容易“虚构”，而“我们与众不同的地方在于，我们走真实的‘长上下文窗口’路线，确保模型可以对整个上下文窗口内的信息做无损压缩，不丢失细节。”这意味着大模型可以获得3项能力：一是记住之前和用户聊过什么，可以在多轮对话中保持更长时间的连贯性；二是对长篇内容的理解会更到位；三是用户可以对模型提出个性化要求，如让模型按照某种风格翻译内容。

该公司工作人员告诉记者，Kimi的优势“是在20万字的上下文上，做到长度、无损压缩水平（质量）和推理成本这三者的平衡”，但随着200万字无损上下文内测的展开，也面临一定挑战。分析机构申万宏源的报告显示，他们认为Kimi的优势在于“在长文本单点能力上实现了突破，精准定位办公人群”。

《环球时报》记者还关注到，当前国内大模型支持的上下文长度普遍要优于海外的顶尖大模型。例如，GPT-4 Turbo的能力约为10万汉字，Claude 3约为16万汉字。“在文本长度方面，Kimi等中国企业目前显著领先于国外企业，这一点非常有助于形成特色优势。”盘古智库学术委员、DCCI-未来智库与FutureLabs-未来实验室首席专家胡延平28日接受《环球时报》记者采访时表示。

巨头涌入长文本赛道

在Kimi大模型3月18日官宣“200万汉字”这一参数后，国内多家人工智能巨头也纷纷秀起了“肌肉”，有媒体直言，“Kimi掀起了大模型长文本竞赛”。22日，阿里云旗下的通义千问向所有人免费开放1000万字的长文档处理功能；23日，360智脑宣布正式内测500万字长文本处理功能，且该功能即将入驻360AI浏览器；还有消息称，百度文心一言或在下月将长文本输入能力升级为200万—500万字。

那么，为何这么多大模型企业都瞄准了长文本这一赛道？

“长文本顺应了人工智能的发展趋势之一。”胡延平告诉《环球时报》记者，人工智能大模型有3个主要的发展趋势，即广度方面走向基于长文本、长记忆、多传感的“系统认知”，深度方面走向“多重思考、复杂判断、创新生成”，维度方面走向“多模态”交互，而长文本正是顺应了第一个发展趋势，同时长文本也是现实需求的重要体现。“月之暗面”创始人杨植麟也曾表示，通往通用人工智能（AGI），无损的长上下文将会是一个很关键的基础技术。“历史上所有的模型架构演进，本质上都是在提升有效的、无损的上下文长度。”杨植麟曾把发展人工智能比作“登月”，而长文本就是“登月”的第一步。

胡延平介绍说，长文本在原理上如同大模型的参数量，都是越高越好，这能够让大模型注意到、知道更多用户希望其知道的信息，由此为用户生成能够对应到特定领域的高质量的、更系统的内容。“特别适合企业、科研学术、创作型用户，以及要求知识库、知识管理等对应到自身场景情境需求的用户。”

聚焦中国创新的英文科技媒体Pandaily援引一位分析师的话称，由于Kimi的技术门槛不是很高，所以未来必将面临激烈竞争。据了解，大模型的应用效果不仅取决于“计算”能力，还取决于“内存”能力，前者关乎技术硬件问题，后者则由长文本能力来决定。相比之下，发展长文本不仅投入少，且更贴合于产业应用。或许正是这些可预见的商业落地前景，才让诸多人工智能企业都押注长文本。天风证券研究所计算机首席分析师缪欣君告诉《环球时报》记者，中长期来看，大模型的竞争格局很有可能是几家头部厂商占据主导地位。

然而，也有业内人士指出，“卷”上下文长度并不是一笔划算的买卖。扩充上下文长度不仅会降低大模型回答问题的速度，还会增加算力成本。此外，研究表明，上下文长度在扩充到一定限度后，其对模型整体能力的提升也是有限的。这也是海外大模型停止长文本之战的原因之一。有评论称，“盲目烧钱一哄而上，不可取。”

AI应用落地三步走

由于使用效果较好，Kimi大模型受到二级市场投资者的关注，近期多个概念股涨停。此外，用户激增一度让Kimi的服务器“崩溃”。上月，“月之暗面”完成10亿美元的新一轮融资。《南华早报》称，该公司创下了自2022年11月ChatGPT发布以来，中国人工智能初创企业最大单笔融资纪录。

分析人士认为，商业可落地性是Kimi被看好的重要原因。实际上，“月之暗面”此前已经表示今年将制定初步的商业化方案。

该公司向《环球时报》记者回应称，“我们看到用户诉求逐渐变得强烈，包括在高峰时期用户会询问我们能不能付费解决排队等待的问题，所以这一块今年会有初步的方案出来，目前还在筹备中，后续有消息会及时跟大家通报。”

“长文本是AI应用落地的重要标志。”胡延平告诉《环球时报》记者，长文本能大幅提高大模型问答、内容生成的个性化程度和准确率。相当于既能帮用户解决问题，也能帮AI企业解决大模型本身的一些问题。在科研、学习、创作、娱乐、服务等领域，将得到广泛应用。不过，他也表示，长文本更吃算力，单次问答的推理成本显著高于短问答，“一旦用户规模增加，企业算力基础设施成本激增，所以从商业角度是否可持续还有待观察。”胡延平进一步分析说，未来长文本必然是大模型的基础能力，在不同收费标准前提下，为用户提供不同长度文本输入和输出服务，包括相应的上下文和记忆，会成为普遍现实。

那么，大模型在商业落地时要注意哪些问题？胡延平认为，一方面要在前述“广度-深度-维度”3个方面着力，另一方面需要从个性化、场景化、系统化角度深度切入，为每一个企业、个人用户提供“长专精小快灵”的管家式服务。长即长期长度，专即专业专门，精即精细精准，小即小投入低成本高效率，快即快速响应实时能力，灵即灵动部署随需应变的云与端模块化流变能力。

盈利和成本也是长文本大模型走向落地必须解决的问题。有科技分析师表示，如果大家都宣布免费开放，那么企业的盈利问题将日益严峻。还有报道指出，目前Kimi每天投放广告获客就要“烧掉至少20万元”。缪欣君也表示，制约国内AI应用发展的关键之一是成本。

“让大模型从能用（问答与生成质量堪用），走向易用（功能与部署方便好用），再走向真正可用（低成本高效率与用户场景融合），这是AI大模型商业化要走的三步路。目前它处于第一步起步、第二步预热的初始阶段。未来还有较长的路要走。”胡延平说。

中国科学院自动化研究所研究员、联合国人工智能高层顾问机构专家曾毅在接受《环球时报》记者采访时表示，长文本处理信息的能力扩展到现在水平，无疑是一个重要进展。但他不认为长文本在未来是一个单独发展的赛道。“它会是一个基础性的变革，但真正要解决的问题还是产生多模态的理解能力，从看似智能的信息处理能力转变为真正具有理解能力的人工智能，这可能才是整个社会所需要的。”