2025年的AI爆点正在发生转移。
在上半年的时候,DeepSeek R1把行业情绪给引爆了,之后呢,在“纯文本+推理”这种范式之下,模型很少再出现那种重量级的成果。当下半年一到来,话题的重心明显出现了朝着多模态领域滑落的情况
可交付应用中被封装是Sora 2,谷歌推出图像编辑更强悍的Nano Banana;AI Agent这里也是这样的情况,通用型产品Manus有更突出文本属性后,聚焦视觉创作场景主推的LoveArt达到相近分级热度 。
在这背后,文本模型的迭代进入一个阶段,这个阶段基线较高,并且是小步抬升的,而多模态理解与生成能力在可用性方面,朝着“破圈”层级又迈进了一步。
一名研究人员,其从事模型训练工作,向界面新闻记者指出,要理解这个现象,首先得认识到,文本方向的研究与多模态方向的研究,二者是并行的,并非串行的。
GPT - 3之后,GPT - 4出现,OpenAI o1成为重大节点,历经这些,大模型语言理解能力可交付C端应用,后续优化聚焦稳态工程,像对齐、降本、延迟优化、鲁棒性等,这些能进一步优化C端应用体验以及B端商用价值,不过用户感知不像GPT - 4来临之时有强烈冲击。
成为典型模样的一个实例,那便是DeepSeek - OCR ,它是一个在所具备的话题性质这一方面,没办法达成令人内心受到冲击震撼效果的演示样品呢,不过呢,可以存在着其一直持续下去的那种影响力 。
它是在10月20日推出的,被定位于进行文本视觉压缩能力的探究,也就是光学上下文压缩,即Contexts Optical Compression。简单来讲,随着上下文输入数量的增加,模型计算的量会以平方级急剧增长,不过借助把长文本转化成图像识别,能够极大地压缩token计算的数量。这一思路经证实所取得的成果是,一旦它落实到应用方面,同样是一种前景相当确切的降低成本提高效率的方式。
多模态的这一边是全然不一样的,它的能力曲线依旧处于能够被更多人察觉到的范围之中。然而,前面提到的那位受访者表明,按照并行的想法来讲,多模态模型的这一头尚未达成架构层面的突破,更多的是足够的数据积累以及训练技巧的提高。

图源:界面新闻
如同他针对Sora 2以及Nano Banana所做出的判断,除掉OpenAI对于多模态生成类产品的初步构想形成,还有谷歌对图像编辑器当前阶段用户需求的掌握(比如说确定一个点来开展针对性更改),两款产品在生成质量方面并未达成飞跃。
并且,在很大程度上,多模态生成领域,也就是以“文生图、文生视频”为代表的那个领域,它的表现优化是以文本模型性能提升作为前提的。阶跃星辰创始人兼CEO姜大昕,此前在接受界面新闻记者采访的时候指出,理解与生成之间存在这样的关系,即理解控制生成,同时生成监督理解。
一级市场正也在目睹着这样一种关注点的转换。有那么一位AI投资人针对界面新闻记者表明,他自身的感受是这样的,即今年整个行业所涉及的投资事件有所增多,然而投资规模却是朝着降低的方向发展,这是由于在投资重点从模型层朝着应用层进行过渡之后,是由后者的市场规模以及估值所决定产生了上述状况 。
在这当中,今年最为显眼的一笔出自应用层视觉创作领域的LiblibAI ,10月23日,LiblibAI宣称完成1.3亿美元B轮融资,红杉中国、CMC资本等参与到其中 ,从而促成今年国内资本市场AI应用赛道规模最大的一笔融资 ,这意味着相对其他赛道而言 ,团队的PMF(product-market-fit)更大程度上得到资本认可 。
往后,相当长的一段时间里。业界有望期望的“爆点”。或许都会更多地源自多模态领域。
姜大昕始终着重强调的看法是,仅仅具备语言方面的智能是不足够的,朝着多模态发展是大模型必然要经历的过程,并且,在当前这一具体领域之中,达成理解与生成二者的统一依旧是现阶段的关键突破所在。
多名受访者,曾对界面新闻记者表示,站在模型训练角度,视觉模态比文本模态面临的挑战更大,单从数据上来看,文本的表征可以在语义上自闭环,然而视觉信息的表征需要先与文本对齐,不存在天然自闭环的数据,“可能需要几次像GPT、强化学习范式这样的大技术变迁才能解决。”一名受访者说 。
另一派看法觉得,依靠更优良的多模态模型,世界模型、具身智能、空间智能等才能够获得显著进步,行业才会更接近AGI(通用人工智能) 。
有更现实的考量,模型决定应用能力上限,当文本模型集中精力降低成本提高效率且缓慢提升性能时,多模态模型的突破有希望给市场带去更多PMF机会,可这还是创业者和投资人眼中更具实际价值的关键变化。





