科技魔方

出席2024声网RTE大会,Soul App展现多模态大模型情感交互能力

软件应用

2024年10月29日

  10月25日~26日,由声网和RTE开发者社区联合主办的RTE 2024实时互联网大会在北京举行。在AI技术突破式发展引发各行业革新浪潮的当下,此次大会主题聚焦“AI 爱”,汇聚行业代表企业、技术大咖、专家学者等嘉宾,共同深度探讨AI为互联网生态带来的新发展。作为AI在社交领域落地的前沿探索者,Soul App与通义千问、MiniMax、智谱等受邀参加开幕式当天的“AI论坛”,展现现阶段最新的技术能力积累以及应用创新方向的更多可能。

  在活动现场,Soul App AI算法技术总监刘忠亮以《实时互动、情感陪伴,开启智能社交新时代》为主题,重点分享了Soul多模态大模型的技术研发脉络,以及围绕社交场景深度打磨多模态交互、情感陪伴、自然反馈等AI能力方向的最新成果和应用实践。

  刘忠亮表示,Soul致力于构建一个AI Being与Human Being共存的社交社区,其中,“人”是最为关键的,因此Soul的AI探索从用户的实际社交场景出发,在AI辅助人、解决人与人链接需求的基础上,以更智能、更沉浸的人机互动升级社交体验。“Soul在AI方向的布局有清晰的推进层次,在以AI增强关系建立的效率和质量后,团队探索多模态大模型、重点关注AI如何提供即时的交流反馈和情绪价值。”

  2016年上线之初,Soul首先推出了灵犀引擎,基于平台用户站内全场景画像与独特算法,持续挖掘有效特征,实现平台上“人与人”“人与内容”的智能连接,合理分配注意力资源和交流机会,这让Soul在当时成为了较早将AI引入人与人链接的社交平台,并在用户群体中形成了差异化的产品认知。

  2020年,Soul正式启动对AIGC的技术研发工作,系统推进在智能对话、语音技术、3D虚拟人等AIGC关键技术能力研发工作。2023年,Soul推出自研语言大模型Soul X,成为行业中较早通过备案的科技企业之一,此后,平台先后推出了语音生成大模型、语音识别大模型、语音对话大模型、音乐生成大模型等语音大模型能力。

  今年6月,Soul还在社交领域中较早推出了自研端到端全双工语音通话大模型,具备超低交互延迟、快速自动打断、超真实声音表达和情绪感知理解能力等特点,能够直接理解丰富的声音世界,支持超拟人化的多风格语言。

  2024年,Soul AI大模型能力整体升级为了多模态端到端大模型,支持文字对话、语音通话、多语种、多模态理解、真实拟人等特性,特别是团队在模型感知能力和推理能力层面的技术突破,叠加端到端方案对延迟问题的解决(现阶段Soul端到端对话模型的延迟低于200毫秒),进一步实现了实现更接近生活日常的交互对话和“类真人”的情感陪伴体验,使人机互动也能具备“在场感”和超拟人属性。

  通过在现场展示目前Soul多模态大模型落地在平台智能机器人“AI苟蛋”、AI聊天助理、狼人杀Agent、数字分身以及最新的AI虚拟人智能陪伴功能的实际效果,刘忠亮说,“大模型能力服务人的社交需求,并不只是单点的人机对话,而是在丰富、趣味的社交场景中,以AI建立完善的关系链发现——建立——深化的环节,并让AI为人提供情绪价值,这是Soul在产品应用探索层面的主脉络,目前平台推出的相关功能也受到了用户的广泛认可和积极反馈。”

  在不久前结束的全球最具影响力的盛会之一—— GITEX GLOBAL海湾信息技术博览会上,Soul携集成3D虚拟人能力的多模态AI交互方案亮相,在博览会现场接受记者采访时,Soul App CTO陶明表示,“预计今年年底,Soul多模态端到端大模型将再次升级,推出全双工视频通话能力。”

  这也意味着,Soul将实现真正意义上的AI多模态交互,集合文字、语音、动作交互的多模态大模型,让用户可以在平台实现更接近人类模式的互动体验和更高效、自然、丰富维度的信息传递,真正获得社交体验的颠覆式升级。

+1

来源:科技魔方

延展资讯