科技魔方

解锁第二届百度搜索创新大赛,看获奖团队成功背后的别样故事

文心一言

2023年12月07日

  历经123天,第二届百度搜索创新大赛已于近日落下帷幕。

  百度集团副总裁、搜索平台负责人肖阳曾在致辞中指出,“AI已经重新定义搜索。百度对搜索的理念,一直是更好满足用户的需求,不止帮助用户找到所求、更是得到所求,让用户能够在百度一站式解决问题,享受服务闭环。面对新奇点,百度搜索将串联并释放过去20年的积累,深入推动搜索引擎的能力升级与产品创新,引领搜索代际变革。”

  但创新、突破需要的则是更多的高科技人才,拥有更为强大的人才资源。所以,这也是百度联合各地顶级高校、学会共同举办百度创新搜索大赛的重要出发点。

01

“基于GPU的近似最近邻检索算法挑战”赛题成果显现

  有机会,便有挑战。在赛题的设置上,第二届百度抖索创新大赛做了些许创新,包括「搜索答案组织」、「基于向量交集的TopK搜索」、「基于搜索用户充分的调研,洞察用户在搜索场景的需求,并通过构建AI应用解决」、「基于GPU的近似最近邻检索算法挑战」、「可控图片生成算法挑战」。

  据了解,本次大赛赛题均来源于搜索核心业务场景,涉及算法、工程、产品三大领域,涉及大模型应用、语义检索、多模态、软硬结合优化等丰富的技术方向,适合有着不同兴趣和经验的参赛者。

  以赛道四“基于GPU的近似最近邻检索算法挑战”为例,具体任务为:给定数据集,开源+百度内部数据集,数据规模亿级,给定测试集,数据规模1万,称为query。参赛者设计自己的近似最近邻检索算法,返回每个query与数据集内最相似的topK个样本。提供统一的虚拟环境和benchmark 框架,并QPS-recall作为算法的唯一评估指标,在固定QPS时,召回率越高算法越优秀。在相同的硬件环境下,使用黑箱测试集,统一执从赛道四行参赛者提交的代码,在固定QPS时,算法的召回率作为参数的最终成绩。

  基于GPU的近似最近邻检索算法是一种利用GPU的并行计算能力加速高维空间中的最近邻搜索的算法。与传统的最近邻搜索算法相比,基于GPU的近似最近邻检索算法具有许多优点。首先,它可以利用GPU的并行计算能力加速搜索过程,提高算法的效率。其次,它可以处理大规模高维数据集,并能够保证较高的准确率。此外,这种算法还可以与其他算法进行结合,进一步提高检索准确率。

  如此来看,完成上述任务并不容易。但从近日举办的大赛颁奖典礼来,优秀成果已展现。在「基于GPU的近似最近邻检索算法挑战」赛道上共有273人报名,其中组成的30支队伍提交上榜。经过激烈角逐,最终来自杭州电子科技大学的HDU01队伍获得赛道四冠军。

02

拥抱创新,开启新搜索时代

  人才驱动,创新不止。

  通过与冠军团队杭州电子科技大学的HDU01深入沟通可以发现,成功的背后有着别样的故事。

  该团队成员倪炯康介绍,针对赛道四赛题任务,他们所面临的主要问题是,“面向用户对互联网上日益增长的非结构化数据,如图片、文本、音视频等的检索需求,使用向量检索技术,通过向量表示这些数据来准确高效地实现用户的以图搜图、内容检索等需求。”

  为了达到这一要求,在比赛初期,通过流水线技术优化算法,HDU01团队曾达到baseline 1.5X的分数,位居排名前列,但他们并没有就此止步。“为了坐稳冠军宝座,他们不断探索算法的极限,终于在比赛中后期发现了算法的带宽瓶颈,最后通过模型索引压缩的方式将其性能进一步突破了一倍,达到了3X baseline,拿到了本赛道的冠军。”该团队回忆称。

  据悉,HDU01团队的成员均来自杭州电子科技大学知识图谱实验室。其中两名成员曾在国内外各大编程比赛中获得过数个奖项,如全国编程天梯赛,ACM等;此外,他们小组还在数据库国际顶级会议,如VLDB、NeurIps中以共同作者的身份发表了数篇向量检索方向的文章。

  “比赛是一种经历,经历就有收获。通过此次百度搜索大赛,我们不仅提升了自己的团队协作能力,也锻炼了我们永不放弃的精神。”该团队表示。

  当然,这也是百度搜索创新大赛举办的目标之一,更是其构建“百万英才计划”的基石。

  大语言模型的变革浪潮才刚刚开始,它所引发的全方位创新和创意激发,一定会加速搜索引擎的进化。通过百度搜索创新大赛,不仅可以把搜索这个“世界上最大规模AI应用场景”充分开放出来,让各位同学参与到创新场域中来,同时也在一定程度上促进了各位参赛者与搜索之间发生激烈的、精彩的碰撞。

  拥抱创新,开启新搜索时代,一扇全新大门正逐步打开。

+1

来源:科技魔方

延展资讯