科技魔方

国产大模型落地,等一个“Sora时刻”

更多场景

2024年03月12日

  仅凭几十个提示词,就能生成一段流畅完整、视角多元的视频,其内容质量几乎能以假乱真,甚至不亚于专业拍摄团队,这就是OpenAI首款文生视频产品Sora,一经发布便激起千层浪,让全球感受到新的AI震撼。

  2024年的AI故事,伴随着这款杀手级应用的横空出世拉开帷幕,Sora再度让所有人注意到了AI的无限可能性,为略显疲软的市场再打了一针鸡血。

  回看2023年,AI产业迎来了空前发展,海内外AI企业如雨后春笋,国内更是迎来了声势浩大的“百模大战”,通义千问、文心一言、智谱AI、盘古大模型.....卷多模态、卷算力、卷token,一时间百家争鸣。

  但一个核心的问题仍旧盘桓在所有人头上:大模型产品到底如何实现商业落地?商业是技术发展的内生动力之一,唯有业务飞轮转动起来,才能让企业们真正走向未来。

  垂直大模型,走向落地

  2023年的“百模大战”到底为行业带来了什么?

  或许是一个清晰的商业认知:垂直化,才是大模型走向落地的实际路径。

  “事实上AI大模型产业还处在一个很初级的阶段,创造的内容、解决的问题还相对比较初级。”初心资本合伙人李可佳向刺猬公社表示。

  初心资本是国内一家专注于人工智能、智能硬件、前沿科技及探索性投资的早期股权投资机构,对于AI产业有着较深的洞察。

  李可佳用丹尼尔·卡尼曼《思考,快与慢》一书中的系统概念为我们解释了目前大模型产业的发展阶段:

  丹尼尔·卡尼曼认为,在人的大脑中有两套系统,系统1指的是快系统,是一种涉及直觉的思维方式,用于快速决策。它做出决策的依据主要依赖于偏差、偏见和错误的启发法,它是无意识且快速的;系统2则是一种慢系统,它更为慢速和理性,负责对系统1进行有意识的控制,特别是在涉及复杂问题的情形中,是否形成系统2也是区分人与动物的重要指标。

  “现在整个产业的发展仍处于系统1阶段,在对创造力要求比较高的文科、艺术等领域,AI已经有很好的表现,它的泛化能力也非常强,但如果希望它能解决一些很实际复杂的技术问题、商业问题,我们仍然需要等待‘系统2’的到来。”

  AI目前正处于互联网的“雅虎时刻”,甚至还没有发展到“谷歌崛起”。OpenAI Sora这样的明星产品固然能让人提振信心,但商业落地问题是全行业都要面对的问题:

  目前人们已经能与AI展开对话、通过AI生成文本、图像、甚至高质量的视频,但问题在于,这些生成能力目前还处在较低水平,Sora还不够多,当幻觉与新鲜感散去,在C端难做突破的大模型们,该去哪里实现自己的价值?

  B端是较为实际的出路。

  这也是李可佳口中的“系统2”发展方向,通过理性、高效的AI为商务、工业提供助力,从而深刻改变整个产业,这也是大模型商业落地最实际的方向。但另一个事实是,通用大模型往往不能很高效快速地适配于企业的需要。

  于是,大模型产业走向垂直化、细分化、专业化,已经成为了未来最重要的趋势之一。

  无论是GPT还是其他基于Transformer架构下的大模型产品,其生成反馈的原则都并非线性的逻辑思考,而是根据“学到的知识和规律”来进行概率组合,这也是为何大模型学的越多越强悍的原因。

  通用大模型的问题就是,它学习的主要是通用的、可公开的知识数据,针对拥有信息壁垒的产业领域,通用大模型很难发挥作用。

  这也是目前国内外许多厂商在做的。在教育、政企服务、医疗等领域,许多大模型都开始了走向垂直化,包括网易的子曰教育大模型、专注政企客户的雅意大模型、在金融、医疗等领域深耕的百川大模型等。

  通过小而精的训练方法,不仅能够突破大模型无法解决专业问题的阻碍,还能进一步降低成本,让大规模推广成为可能。

  “以前很多人都认为,只要模型的规模够大,过了多少亿参数,模型就能达到很强的能力,但其实其对于任务的理解能力还是比较浅显的。”

  在2023年底,雅意2.0大模型发布时,中科闻歌董事长王磊曾向刺猬公社表示,在他看来,垂直专业才是大模型发展的未来方向,雅意2.0大模型也同样遵循了这样一个方向,不再一味的追求规模与C端反馈,而是选择摒弃娱乐向的内容,将更多专业知识数据融入训练中,从而实现更好的政企服务。

  那么有哪些产业能够更快的实现“大模型化”呢?

  李可佳认为这主要看行业的容错率与专业度。在智慧教育领域的多年深耕让他认识到,在容错率相对较高、对专业精准要求相对较低的领域,AI带来的变革将更容易发生。“在拍搜、语言学习这些领域,大模型带来的效率提升是非常显著的。”

  他认为,医疗、金融等领域也正在产生变革,伴随着大模型能力的不断进化,更多工业、科技领域的生产制造都会迎来一场AI改造。

  AI Agent:突破AI需求困境

  那么如何将大模型的能力更直接的运用到我们的生产过程中?AI Agent或许是一种更现实的路径。

  “可以这样构想一下,我还在做别的工作或是休息,在一个类似元宇宙的空间里,我的AI Agent(代理)与另外一位创业者的AI Agent相遇,它们聊的很开心,或许等我醒过来,我的AI Agent就拿着对方的商业计划书来给我看了。”

  AI Agent在未来将成为人与AI大模型连接的工具,成为AI领域继GPT、文心一言等大模型产品的下一个热点,正在被越来越多人所认同。

  一位AI从业者向刺猬公社表示,AI Agent不仅仅会成为便利工作生活的工具,还能真正推动大模型从B端到C端的实际落地,推动AI产业的商业化成熟。

  换言之,AI Agent是AI产品更成熟的形态,它真正的使命就在于将AI能力封装化,让C端、B端用户都能更便捷更直观的运用,从而助力生产力的解放。如果说大模型产品只能被动的接收-生成,那么Agent的使命要复杂的多,它更类似智能助手,需要借助自身的AI能力帮助使用者解决切实问题。

  “其实这是一种AI native的认知。”李可佳表示,不同于很多企业+AI的思维,Agent事实上是一种AI+的逻辑。

  “面对AI浪潮,我们不能只去想如何利用AI能力加持我们已有的业务形式。我就认识很多创业者,希望通过大模型提升自己的Saas服务能力,比如做一个邮件营销的生成式AI产品等等,但他们却忽略了一点,以后有些SaaS类产品可能都直接autopilot了,这个产品对应的环节可能都没了。”

  Agent的意义就在于,它正在改变着人机协作的逻辑:

  不仅仅是协助工作,AI就可以独自帮助使用者完成任务,它不需要事实的提示词输入,也不需要使用者一步步的繁杂操作,只需要一个指令,Agent就能帮你完成很多在过去时代无比复杂的工作,比如数据分析、广告营销投放、甚至是社交、销售这样主观性很强的工作。

  这几乎是革命性的,在Agent日渐成熟的情况下,很多行业的许多环节都能够被改写,甚至取代。

  GPTs就是OpenAI针对Agent概念推出的产品之一,定制化的GPT机器人、能够满足不同的使用需要、专注于不同的领域,GPTs的推出一度让全球Agent企业大感危机。

  目前来看,GPTs似乎还没有达到Agent的程度,对于国内外的许多AI 企业来说,机会仍然存在。

  但Agent不是更智能的AI聊天机器人,其最主要的能力是主动调用AI工具,为使用者解决问题,想要实现这样的能力,除了技术能力外,与Agent背后的大模型基底息息相关,比如多模态的输入输出能力、幻觉问题、多轮交互的高效靠谱,都将影响Agent的表现。

  更重要的是,Agent的应用往往要与不同的产业领域、应用场景相结合,这就与前面提到的垂直化趋势深度相关。

  现如今国内也已经出现了很多垂直领域的Agent产品,百度研发的营销Agent轻舸、钉钉、飞书的AI办公助理,这些企业从自身已有的产品和业务优势出发,希望借助Agent创造新的产品逻辑,从而实现产品的二次成长。

  以钉钉的AI Agent为例,其AI 助理可以与钉钉本身“融为一体”,根据用户的指令,与平台上的应用和第三方插件、企业自建应用等结合,对这些功能进行调用。这样一来,也让钉钉庞大的插件和应用库变得简单易用,用户不再需要一个个找应用,AI 助理就可以做到更符合用户使用场景的匹配。

  类似钉钉AI助理这样的产品,正在解决大模型的“伪需求”困境,带有强烈的“AI native”思维。当更好用、更有效的Agent产品被用户看见、使用,甚至解决工作生活中的种种痛点,大模型的商业落地难题也终将得到解决。

  从娱乐需求,到更广阔的世界

  现如今整个产业到底还面临着哪些问题?

  最重要的仍是技术能力问题。“如果从创业的角度出发来看,或许你在进行逻辑推演时,能够获得一个不错的推算结果,但真正重要的还是能否让用户感受到‘神奇时刻’。”李可佳表示。

  对于大模型产品来说,最重要的仍旧是通过技术解决用户需求的能力,自ChatGPT横空出世以来,无数人都认为大模型产品将改变整个互联网的生产逻辑,但未来的进程似乎要远慢于我们的期望。

  归根结底,是大多数大模型产品的能力远没有达到“神奇时刻”,简单的多轮对话或许能为用户带来一刻的惊艳,但缺乏实际解决问题的能力。

  “质量信号没有达到效果,还要看数量信号,也就是用户的留存情况。”这也与产品的实用性相关,GPT能够在全球席卷上亿用户,除了出类拔萃的能力外,优质的交互体验,不断推出的多模态生成产品,都是关键因素。

  有Sora这样的杀手级应用,OpenAI自然不会为用户、商业化发愁,但对于其他玩家来说,除了在研发上下苦功外,垂直专业化、加强体验、创建多元应用场景就成为了重要的路径。

  除此之外,抛开大模型产品、Agent等固有思路,大模型还有许多新的机会。

  作为早期投资市场的布局者,李可佳和所在的初心资本的投资逻辑可以概括为“两横三纵”,在这样一个坐标图谱中,蕴含着初心观察到的产业机会。

  “两横分别是人才红利和供应链红利,在过去十几年中国移动互联网的飞速发展之下,整个行业培养了大量的工程师、科研人员,在全球都有着不少的优势,另一方面,中国在制造业上拥有很强的优势,尤其是在3C硬件等领域,我们的制造业供应链相当完备。”

  以这样两个红利为基础,三纵则代表了几个重要的技术变量,第一就是生成式AI,其余两纵则为算力的性能跃迁和电动化到智能化的变迁。三纵与两横之间的许多交叉点则蕴含着新的机会,例如AI+硬件、AI+元宇宙、AI+XR等可能,都正被深切关注着。

  在海外,Rabbit R1等AI Pin硬件令人关注,而在国内,荣耀、OPPO等厂商相继推出AI产品、AI手机等,希望实现弯道超车;在XR领域,万众瞩目的Vision Pro同样与AI有着千丝万缕的联系,在AI大模型的支持下,新的世界图景正在逐渐展开。

  但最重要的仍旧是AI native思维。

  “最让我感觉兴奋的是,在硅谷这些地方,我们接触到了很多非常年轻的创业者,他们从不怀疑AI能否改变世界,他们的创业项目,都是基于AI时代已经到来的前提下开展的。”李可佳向我们回忆,而这些AI native思维加持下的创业者,也让他真正看到了未来的图景。

  “新的技术正在改变世界的每个角落,如果沉溺在旧世界里,很可能会被时代抛弃。”

+1

来源:站长之家

延展资讯