科技魔方

如何优化AI数据存储管理

更多场景

2024年07月16日

  优化AI存储不仅仅涉及选择正确的硬件,它需要一种数据管理方法来成功处理大型语言模型(LLM)所需的大量数据。

  通过将人工智能处理视为项目数据管道的一部分,企业可以确保其生成的人工智能模型得到有效训练,并且存储选择适合目的。通过强调人工智能数据存储需求的重要性,企业可以确保他们的人工智能模型既有效又可扩展。

  与存储需求相一致的AI数据管道阶段

  在人工智能数据管道中,各个阶段与特定的存储需求保持一致,以确保有效的数据处理和利用。以下是典型的阶段及其相关的存储需求:

  数据收集和预处理:收集和集中原始数据的存储,然后将其清理并转换为准备用于培训流程的策划数据集。

  模型训练和处理:将整理好的数据集输入到GPU进行处理的存储。管道的这个阶段还需要存储训练工件,例如超参数、运行指标、验证数据、模型参数和最终生产推理模型。管道存储要求将有所不同,具体取决于您是从头开始开发LLM还是增强现有模型,例如再生增强生成(RAG)。

  推理和模型部署:任务关键型存储,用于托管训练模型,以便根据新数据进行预测或决策。推理的输出被应用用来提供结果,通常嵌入到信息和自动化流程中。

  归档存储:训练阶段完成后,需要将各种工件(例如不同的训练数据集和不同版本的模型)与原始数据一起存储。这通常是长期保留,但模型数据仍然需要可用,以便提取与过去训练相关的特定项目。

  云端与本地通常会影响所使用的存储

  启动人工智能项目之前的一个主要决定是,是在混合云设置中使用云资源、本地数据中心资源,还是两者兼而有之。

  对于存储,云提供各种类型和类别以匹配不同的管道阶段,而内部存储通常有限,从而导致针对各种工作负载的通用解决方案。

  最常见的混合管道划分是在云端进行训练,并在本地和边缘进行推理。

  第一阶段:数据收集和预处理的存储要求

  在数据收集过程中,大量原始非结构化数据从远程数据中心和物联网边缘集中起来,需要较高的总体性能水平才能高效地传输数据。性能必须与互联网速度相匹配,而互联网速度并不是特别快,需要使用多个线程集体传输数TB的数据。

  容量可扩展性同样重要,因为存储解决方案必须能够以经济高效的方式扩展以适应不断增长的数据集和不断增加的计算需求。

  平衡成本效率对于在预算范围内满足这些扩展和性能需求至关重要,确保解决方案在不花费过多的情况下提供价值。此外,冗余对于通过可靠的备份和复制防止数据丢失至关重要。

  安全性至关重要,它可以保护敏感数据免遭泄露,确保信息的完整性和保密性。最后,互操作性对于与现有系统的无缝集成必不可少,有助于跨各种平台和技术实现顺畅的数据流动和管理。

  用于数据收集和预处理的最普遍的存储是高度冗余的云对象存储。对象存储旨在与互联网良好交互以进行数据收集,具有可扩展性和成本效益。

  为了保持大规模的成本效益,通常使用硬盘驱动器(HDD)设备。然而,随着这种存储的交互越来越多,低成本固态硬盘(SSD)变得越来越重要。此阶段最终会形成组织良好且经过精心策划的数据集。

  第二A阶段:有效LLM培训的存储要求

  为LLMAI模型处理提供GPU所需的存储必须满足几个关键要求。极致性能至关重要,需要高吞吐量和快速的读写速度来为GPU提供数据并维持其持续运行。

  GPU需要稳定且快速的数据流,这凸显了与其处理能力相匹配的存储的重要性。工作负载必须管理训练期间频繁生成的大量检查点数据转储。可靠性对于防止训练中断至关重要,因为任何停机或不一致都可能导致严重的整体管道延迟。

  此外,用户友好的界面也很重要,因为它们简化和优化管理任务,并允许数据科学家专注于人工智能模型开发而不是存储管理。

  大多数LLM都在云端进行训练,利用大量GPU。精选数据集从云端的对象存储复制到本地NVMeSSD,这提供了极高的数据GPU馈送性能,并且只需要极少的存储管理。Azure等云提供商拥有自动化流程来在本地复制和缓存这些数据。

  然而,仅依靠本地存储效率低下;SSD可能处于闲置状态,数据集需要调整大小才能适应,数据传输时间可能会妨碍GPU的使用。因此,公司正在探索在云端运行的并行文件系统设计,以通过NVIDIA直接连接处理数据。

  第二B阶段:有效RAGS培训的存储要求

  在RAG训练期间,私有数据被集成到通用LLM模型中,以创建新的聚合模型。这种分散式方法使得LLM无需访问组织的机密数据即可进行训练。此类敏感数据的最佳存储解决方案是可以隐藏个人身份信息(PII)数据的系统。

  最近,人们已经从集中所有数据转变为在远程数据中心进行现场管理,然后传输到云端进行处理。

  另一种方法是使用云端分布式存储系统将数据拉入云中。RAGS训练的有效存储解决方案必须结合高性能和全面的数据编目功能。

  采用高吞吐量存储(例如基于SSD的分布式系统)来确保有足够的带宽将大型数据集提供给GPU至关重要。

  此外,强大的安全措施(包括加密和访问控制)对于在整个培训过程中保护敏感数据至关重要。

  并行文件系统和传统网络附加存储(NAS)之间预计将出现竞争。NAS历来是本地非结构化数据的首选,许多本地数据中心仍是如此。

  第三阶段:有效AI推理和模型部署的存储要求

  成功部署模型推理需要高速、关键任务存储。高速存储可以快速访问和处理数据,最大限度地减少延迟并提高实时性能。

  此外,性能可扩展的存储系统对于适应不断增长的数据集,和不断增加的推理工作负载至关重要。必须实施安全措施(包括嵌入式勒索软件保护)以在整个推理过程中保护敏感数据。

  推理涉及处理非结构化数据,这些数据由文件系统或NAS有效管理。推理是AI的决策阶段,与内容服务紧密结合,以确保实用性。它通常部署在边缘计算、实时决策和数据中心处理等各种环境中。

  推理的部署需要关键任务存储,并且通常需要低延迟解决方案设计才能及时提供结果。

  第四阶段:项目归档的存储要求

  确保长期数据保留需要强大的耐用性,以便在较长时间内维持存档数据的完整性和可访问性。

  在线检索对于满足偶尔需要访问或恢复存档数据的需求非常重要。成本效益也至关重要,因为存档数据很少被访问,因此需要具有低成本选项的存储解决方案。

  基于HDD或前端为HDD的磁带的在线大容量对象存储是云中最常见的归档方法。与此同时,本地设置越来越多地考虑使用主动归档磁带,因为它具有成本效益和出色的可持续性特性。

  可扩展性的重要性:人工智能世界仍在不断发展

  如今,人们普遍采用不同类型的存储来优化AI数据管道流程。展望未来,人们预计将更加重视优化整体AI数据管道和开发流程。

  在数据采集和预处理阶段,使用可扩展且经济高效的存储。预计70%的项目时间将用于将原始输入转换为用于训练的精选数据集。随着早期AI计划的完成,与数据发现、分类、版本控制和数据沿袭相关的挑战预计将变得更加突出。

  对于模型训练,基于SSD的高吞吐量分布式存储解决方案对于向GPU提供大量数据至关重要,可确保快速访问迭代训练过程。虽然目前大多数云训练都依赖于本地SSD,但随着流程的进步,组织有望优先考虑更高效的训练方法和存储解决方案。因此,最近初创企业开发的创新型SSD支持的并行文件系统有所增加,作为本地SSD的替代品。这些新的NVMeSSD存储系统,旨在通过优化配置容量并消除将数据传输到本地驱动器的需要,更有效地处理AI工作负载的高吞吐量和低延迟需求。

  对于模型推理和部署,低延迟存储可以提供快速数据检索并增强实时性能。随着推理开始取得进展,预计到2028年,推理存储将以近20%的复合年增长率增长,几乎是LLM训练所用存储的四倍。

  在整个管道中,数据安全和隐私受到高度重视,存储解决方案中集成了先进的加密和合规措施以保护敏感信息。确保安全的数据访问和数据加密对于任何数据管道都至关重要。

  随着时间的推移,存储系统可能会演变成一种通用类型,从而消除数据传输等阶段性问题以及保护多个系统的需求。利用单一端到端系统将允许在同一基础设施内高效地收集、训练和推理数据。

+1

来源:千家网

延展资讯