科技魔方

深度求索公司公布新型数据采集专利,助力大语言模型训练效率提升

更多动态

2025年04月02日

  国家知识产权局最新公告显示,杭州深度求索人工智能基础技术研究有限公司申请的“一种广度数据采集的方法及其系统”专利于4月1日正式公布。该技术旨在优化网页数据采集流程,通过智能筛选链接、分析内容质量及优化下载分配,显著减少低效或重复下载,从而提升数据质量并降低网络资源消耗。

  专利摘要指出,该系统采用独立的信息回灌队列设计,确保数据处理的稳定性,同时避免对目标网站造成流量冲击。当前,大语言模型训练依赖高质量、多样化的数据集,但传统采集技术常面临链接遗漏、过量访问及内容质量不足等问题。深度求索的解决方案有望为人工智能领域提供更高效的数据支持,推动自然语言处理技术发展。

582 +1

来源:DoNews

延展资讯