科技魔方

残差神经网络作者张祥雨,投身 AI 大模型

更多动态

2024年08月05日

  大模型的人才黑洞效应,还在持续。最新出现在大模型大牛转会名单上的重磅大牛,是 90 后 AI 大牛张祥雨,ResNet (残差神经网络)四位作者之一,孙剑首位深度学习博士生,未来科学大奖得主。现在,他出现在了国产大模型独角兽阶跃星辰的引援传闻中。

  而且六小强之一的阶跃星辰,据说最近还不止这一位 AI 大牛。不过截至发稿,阶跃星辰暂未作出明确回应。

  张祥雨,ResNet 四位作者之一

  2008 年,张祥雨考入西安交通大学;一年后申请转专业进入软件工程专业学习。

  2011 年,张祥雨获美国大学生数学建模竞赛(MCM)特等奖提名奖(Finalist),创下当时西安交通大学参加该竞赛以来历史最好成绩。

  2012 年,张祥雨获西安交通大学软件学院软件工程专业学士学位。

  之后张祥雨又入选了西安交通大学与微软亚洲研究院博士生联合培养项目,师从孙剑和何恺明。2017 年,获得博士学位。

  正是在微软亚洲研究院期间,何恺明、孙剑、任少卿和张祥雨四人共同完成了著名的 ResNet,张祥雨负责底层框架和编码。

  ResNet 即残差学习,本身虽为计算机视觉领域研究,但其核心思想残差连接已经跨界成为现代深度学习模型的基本组件。

  开启上一次 AI 热潮的 AlphaGo Zero 就是结合了 ResNet + 强化学习 + 蒙特卡洛搜索共同完成。

  而开启最新 AI 热潮的 ChatGPT,其中的“T”也就是 Transformer 网络中同样使用了残差连接。

  ResNet 原始论文在 2016 就获得了 CVPR 最佳论文奖。

  去年,何恺明、孙剑、任少卿和张祥雨四人又凭借这项研究获得了 2023 未来科学大奖“数学与计算机科学奖”,由此可见其深远影响。

  目前这篇论文 Google Scholar 的被引用次数已超 23 万,是本世纪最火的深度学习论文之一:

  2016 年 7 月,孙剑加入旷视,任首席科学家和旷视研究院负责人。张祥雨在博士毕业后也紧随导师进入了旷视。

  张祥雨研究方向包括高性能卷积网络设计、AutoML 与自动化神经网络架构搜索、深度模型的裁剪与加速。

  2017、18 年,张祥雨完成了另一代表作 —— 移动端高效卷积神经网络 ShuffleNet 两部曲。

  现月之暗面联合创始人、算法团队负责人周昕宇,也是共同一作。

  ShuffleNet 后来影响了包括苹果 3D 人脸解锁在内的各种手机毫秒级人脸解锁技术。

  2020 年,张祥雨入选“AI 2000 计算机视觉全球最具影响力学者”榜单第 4 位。

  除此之外,张祥雨还有诸多研究,Google Scholar 数据显示,目前其论文引用量达到 320510 次,h-index 为 59。

  还有 2 位万引大牛加盟

  2024 年,AI 牛人的流动没有减少,但他们的选择不全是下场创业。

  行业中人往往对 AI 技术有很强烈的亲身感受。他们中还有许多像张祥雨这样,选择前往既有公司,到新潮流一线激情冲浪的人。

  而阶跃星辰,就在悄然之间招揽了不少这种选择的牛人。

  量子位获悉,除了张祥雨,腾讯俞刚和 MSRA 段楠,也已经加入阶跃星辰的队伍。

  俞刚,现任阶跃星辰首席科学家。

  在此之前,他在腾讯担任研究总监;再之前,他是旷视 Detection 组长。

  俞刚 2007 年本科毕业于山东大学,2010 年在上海交通大学获得计算机硕士学位。

  之后前往南洋理工大学攻读博士学位,师从袁浚菘;期间曾在微软研究院实习,2014 年毕业后加入旷视工作。

  主要负责检测、分割、跟踪、骨架、动作行为等方面的研究以及算法落地工作。

  2017 年,俞刚带队参加 2017 COCO+Places 挑战赛,获得检测第一名,人体姿态估计第一名;2018 年再次带队参加 COCO+Mapillary 挑战赛,获四项第一。

  旷视五年期间,俞刚和旷视首席科学家、旷视研究院院长孙剑合著过十篇 paper。

  2019 年年底,俞刚在知乎确认离职消息,宣布加入腾讯 PCG 光影研究室,继续从事 CV 相关算法及技术研究。

  今年,俞刚有 2 篇论文被 ECCV2024 接收、2 篇论文被 CVPR 接收;同时,他也担任了 CVPR 的区域主席。

  目前,俞刚的谷歌学术被引量为 1.9 万。

  再来说 MSRA 段楠 —— 其实今年 5 月,量子位就跟大家分享过他加入阶跃星辰的讯息。

  离职前,段楠是 MSRA 资深首席研究员,自然语言计算团队研究经理。

  主要从事自然语言处理、多模态智能、代码智能、机器推理等研究,多次担任 NLP / AI 学术会议程序主席和领域主席。

  同时是中国科学技术大学、西安交通大学兼职博导,天津大学兼职教授。

  段楠从天津大学博士毕业后就加入 MSRA,当今 NLP 领域成就最高的华人之一、MSRA 前副院长周明是他的导师。

  他在 MSRA 工作了 17 年零 9 个月。

  工作期间,段楠的多项研究成果成功应用到微软 AI 产品中,包括必应搜索、必应广告、微软新闻、Cortana 语音助手和微软小冰等。

  他的研究工作还有微软 NüWA(女娲),由 MSRA 和北大联合打造的多模态预训练模型,面世则直取 8 项 SOTA。

  据了解,段楠担责的职务是 NüWA 系列模型家族项目担任研究组长和导师。

  目前,段楠的 Google Scholar 被引量,也逼近 1.9 万。

  另有统计结果显示,段楠与微软前全球副总裁、阶跃星辰创始人 CEO 姜大昕,合著过 44 篇论文。

  大模型创业,AI 人才新黑洞

  几个月时间,把张祥雨、俞刚、段楠收入囊中,还有更多的 AI 人才加入消息秘而不宣。

  阶跃星辰必然是有两把刷子在身上的。

  究其原因,首先是其颇受认可的江湖地位。

  阶跃星辰已经是公认的国产大模型创企“六小强”之一:

  和月之暗面、Minimax、智谱华章、零一万物、百川智能一起,深耕基础模型领域,并因人才、技术、产品、市场认可度综合评价,估值快速跃迁至 10 亿美金以上。

  6 月时,阶跃星辰在投融资市场中的身价,曝已是 20 亿美元。

  再就是出场就很吸引人的人才堡垒。

  创始人兼 CEO 姜大昕,微软前全球副总裁。

  不谈其他,单纯看他在微软的最后 title,就很能理解为什么许多与 MSRA 有千丝万缕联系的 AI 牛人门,前赴后继奔向阶跃星辰怀抱中(一个狗头)。

  2011 年,姜大昕开始在微软亚洲互联网工程院(STCA)工作,去年 3 月升任为微软副总裁,同时兼任亚洲软件技术中心 WebXT S+D(网络体验、搜索和分销)集团总经理。

  然后在事业新高峰时依然下场创业,有了今日的阶跃星辰。

  阶跃星辰的数据负责人焦斌星,就是和姜大昕一起打包自己,从微软投身 AI 新浪潮创业的一份子。

  这家公司的系统负责人朱亦博,也曾有过 MSRA 的工作经历。

  更重要的是,他是国内屈指可数的、拥有多次单集群万卡以上的系统建设与管理实践经验的从业者。

  以及离不开的垒雪球神器 —— 阶跃自研模型和产品。

  其模型侧的 Step 系列通用大模型,以及跃问 & 冒泡鸭两款 toC 产品,陆陆续续投入市场,进行检验,正在获得更大的认可。

  以上或许能解释,为什么阶跃星辰成为了我们看到的“AI 人才黑洞”。

  而阶跃星辰对人才的吸引力,正是大模型六小强疯狂“敛(人)才”的原因的缩影。

  人才的流动,还会继续。

  本文来自微信公众号:量子位(ID:QbitAI),作者:衡宇西风

+1

来源:微信公众号:量子位 作者:衡宇西风

延展资讯