国内大模型数据之困有解了！头部标注厂商打造，专为垂直行业落地

　　本文来自于微信公众号量子位 (ID:QbitAI)，作者:白交。

　　大模型落地垂直行业，数据已打响第一枪。

　　现在，专门面向垂直大模型的数据解决方案来了——

　　直接帮助通用大模型产业落地那种。

　　背后是将交付精度标准拉到99.99%，在业内连续霸榜的云测数据。

　　高质量数据，作为大模型时代下的关键“燃料”，直接决定着大模型效果的好坏。

　　不少业内大佬包括张勇、李彦宏、周鸿祎等在内都曾谈到大模型产业落地中数据的价值和意义。

　　但从大模型训练流程、行业数据的稀缺性，又决定着数据生产处理并非易事。

　　既然如此，云测数据又是如何解决的呢?剑指垂直大模型

　　首先，不同于传统数据服务方案基于任务划分的维度，整套垂直大模型数据解决方案按阶段划分，分为三个阶段:

　　持续预训练

　　下游任务微调

　　灰度发布联调

　　这种模块化设计，一方面交付更为高效，大模型企业可根据自身需求选择特定的服务内容;另一方面这恰好也是云测数据所认为从通用大模型到行业大模型所需要的“三段论”。

　　首先，持续预训练阶段，需要往通用大模型中注入垂直行业知识。一方面，需要场景化数据的采集和处理能力;另一方面，还要保证数据质量的稳定性和持续性。

　　随着大模型构建之后还有后续的持续迭代，所以需要长期、稳定的高质量行业数据输送。

　　其次，下游任务微调阶段，也就是根据企业需要去进行任务端到端定制。

　　据介绍，云测数据的数据标注平台集成了既有像语音分类、语音撰写、文生图、视频标注等传统标注工具支持，也有像问答对编写、Prompt编写、多轮对话等大模型特定标注工具。这一阶段需要人机协同来运作。

　　完成微调之后，也就是最后的灰度发布联调阶段，邀请比如像保险、金融、智驾等特定垂直领域人员和专家的评测评估;还有基于特定环境要求，搭建真实还原的使用场景。

　　遇到一些bad case就将数据通过平台回流到最初清洗标注，以及调优阶段，以此来形成数据闭环。

　　总结来看，整套方案主要体现了两大特点:持续订阅、专业定制。

　　前者是大模型持续迭代升级、满足时效性的共性，企业需要数据持续高质量地输入;后者则是在保证高效高质的前提下，大模型垂直场景落地所必备的特性。

　　为此，云测数据特别在下游任务微调、灰度发布联调两个阶段，他们有着特定领域专家池，里面都是了解场景的深度用户，去评估有效的交互内容。

　　以电商中文案生成这一典型场景为例。

　　据云测数据总经理贾宇航介绍，首先是持续预训练环节，云测数据基于已有的数据集积累，比如不同产品信息、商家评分、用户评论等各类型数据，进行一个持续数据提供。

　　微调环节，则是进一步结合企业实际使用需求去生成相关文案，包括像品类特点、内容风格、客户画像等维度的定制。

　　至于联调评测阶段，一方面是公司专业的功能测试专家去整合系统进行评测;另一方面，是专业标注人员去对生成内容去进行评价和评分。

　　除了电商之外，云测数据在保险、智驾、智能家居领域都已经有了相关大模型合作落地。为什么是云测?为什么是垂直大模型?

　　现在，通用大模型浪潮已经趋于冷静，各领域企业都在思考如何应用大模型来降本增效。

　　云测数据率先给出垂直大模型的数据解决方案，并明确表示“大模型应走向行业”。

　　为什么会是云测数据?而这解决方案背后又是基于什么考量?

　　在与云测数据交谈之中，谈及最多的定位是数据生产者和处理商——

　　基于AI数据处理的经验以及行业经验，持续输出相应的方案和标准。巧合的是，每年服贸会都成为了云测数据阶段性的成果展示平台。

　　2020年云测数据代表行业首次对外宣布:项目最高交付精准度达到99.99%;

　　2021年，云测数据先后发布云测数据标注平台、AI数据集管理系统等技术成果，率先形成AI训练数据的“采、标、管、存”一站式服务，实现从“数据原料”到最后的“数据成品”全链条打通，输出完整的数据价值。

　　又经过一年的打磨和完善后，应对AI工程化演进趋势，云测数据在2022年发布了面向AI工程化的新一代数据解决方案。方案不仅包括标注数据、管理数据所需的平台工具，还涉及管理体系以及数据安全。

　　其中数据处理工作台支持持续任务处理、人机协作，同时以标准API接口与各类系统对接，将AI数据训练过程中的综合效率提升200%。

　　今年大模型时代来临，在云测数据看来，行业数据之所以稀缺，核心是因为现有数据不够clean，需要做清洗处理。

　　有业内机构表示，大模型数据清洗率，即清洗出来正确的数据占原数据百分比，不到10%。

　　而解决方案以工具链集成的方式，能够帮助企业根据自身需求，快速本地部署处理数据。这样还能保证数据不出外网，保障数据资产的安全性。

　　事实上细心一点发现，这一轮轮方案看似是面向不同趋势和场景，实际上都是基于已有方案基础上的迭代。

　　贾宇航对此回应，都是基于数据底座集成。

　　经过数年AI数据处理经验的累积，这也正是云测数据「以不变应万变」的方式应对AI技术趋势。

　　至于选择垂直大模型部署，这则是与行业经验有关。

　　一来，多年来在汽车、安防、手机、家居、金融、教育、新零售、地产等行业多场景的优势，能满足大模型高质量、多样性、时效性的数据需求。

　　二来，云测数据本身也能结合自身优势，将公司在软件测试业务上10多年ToB服务经验也迁移沉淀至云测数据的AI数据服务中，提质增效的作用十分显著。

　　于是乎，凭借在产品、服务、技术研发等方面的综合实践，云测数据已连续四年被评为行业第一，被认定具备丰富的研发及产业化服务经验。

　　数据之于大模型时代

　　大模型，正在加速让人工智能朝着以数据为中心的方向转变。数据的价值也在这一进程中来到了前所未有的高度。

　　从大模型预训练、监督微调、强化学习，再到迭代、应用，数据可以说是贯穿整个流程。如何清洗处理高质量数据，利用数据去提高模型性能，在产学研界仍然在积极探索之中。

　　至少从各家招聘网站上看到，数据标注人才成为刚需，市场十分火热:基本平均本科以上，各领域专业人才都有涉及。

　　甚至有公司在招物理学博士来做标注了。

　　既然如此，身处于浪潮之中的数据服务公司，又在卷什么往什么方向卷呢?

　　一来，技术能力。数据作为AI算法的底层设施，降本增效成为数据行业中的首要目的和第一标准。

　　以往谈到数据行业，无非是劳动密集型，只需靠人力堆积，将各维度数据转化为结构化数据。

　　随着之后模型规模增大，数据量与模型性能成正相关成为普遍共识时，单靠人力无法提高效率，一体化的数据处理平台、算法工具链开始发展起来。

　　尤其是以自动驾驶为典型场景，它不仅涉及各种交通路况的复杂长尾场景，还有在感知层面就涉及激光雷达、相机等多维数据的融合，这就需要自动化工具、多模态、甚至多种算法来提高效率。

　　现在以ChatGPT为代表的大模型，对数据的需求不再只是参数规模，还在于更高维度的——高质量、多领域和多模态;这也就需要AI数据服务公司更高效的技术实力来响应。

　　二来，场景化数据。大模型的技术路径已经清晰，落地垂直领域也已经成为必经之势。而在行业场景中多年深耕，掌握核心行业资源和用户，就能快速享受到红利。

　　而且现在越来越多开源通用大模型问世，大模型的训练门槛也就逐渐降低，更多工程化、系统化难题在后续迭代和应用的部署上。

　　垂直企业想要用上大模型，就需要专业AI数据服务商持续性地、紧密地合作，获取行业知识数据。

　　如果说，自动驾驶让数据标注告别人力走向了工具/平台标注，那么大模型将数据标注重新迎来了洗牌时刻——

　　真正从劳动密集型变为知识密集型、技术密集型。

　　只有掌握行业Know-how，持续技术创新的AI数据公司能站到最后，你觉得呢?

国内大模型数据之困有解了！头部标注厂商打造，专为垂直行业落地

延展资讯