科技魔方

AI自己写代码管理数据库?国产数据库怎么看

人工智能

2023年04月06日

  文|光锥智能,作者|刘雨琦

  “23.44°到23.47°。”

  这是在《流浪地球2》中,十台地球发动机发射测试产生的0.03度角位移,而就是这0.03度印证了“移山计划”的可行性。让地球迁移计划从“有可能”变为了既定事实。

  于当下这个节点而言,ChatGPT便是那0.03度的角位移。它的出现让很多趋势成为了既定事实。这其中,并不只是对通用大模型等显性特征达成一致,而是对当前的技术架构有着根源性的重构。

  数据库的云原生化便是其中之一。以往提到云原生,无外乎是随着企业业务发展的爆发式需求,将数据库迁移上云能够大幅度降本,对于云原生的探索更多集中在高弹性、高可用性、资源解耦等技术优势。

  但从根本上,云原生与大模型的关系,就像新能源与智能化,云智一体不是成本的最优解,而是AI发展的必要条件。

  国内外的云巨头们早就开始了提前布局。在阿里云瑶池数据库峰会中,基于阿里云原生数据库Polar DB推出了一体化HTAP数据库;腾讯云云原生数据库TDSQL-C打榜TPC-C破世界纪录;蚂蚁集团云原生时序数据库CeresDB 1.0正式发布;Amazon Aurora Serverless v2将在中国区域上线。

  “未来接触AI之后,业务的迭代速度会越来越快,业务都要为企业创造价值。这个过程中要求快速迭代、稳定、低成本、弹性,‘又快又稳定’这对于系统的要求是非常矛盾的。今天能够解决这个系统问题的架构,就是云原生架构,所以说今天云原生架构是所有系统演进的未来。”阿里云数据库解决方案专家李圣陶判断道。

  这意味着我们将进入一个全面云原生化的时代。不只是数据库的云原生,更多应该发生在应用的云原生、基础设施的云原生中,云原生数据库是一个起点,也是撬动下一个时代的关键扳手。一、AI for DB,DB for AI

  云原生是迎接智能化时代的基础条件,智能化是云原生数据库新的牵引力,二者相辅相成并呈螺旋式上升。

  阿里云数据产品事业部负责人李飞飞认为,这分为两个部分:AI for DB,DB for AI。

  目前,AI for DB,智能化技术大多运用在数据库的运维的环节,比如异常检测、HA切换、参数调参、多维分析等数据库管理服务。

  在智能化之前,数据库的运维主要依靠云资源池化、分层解耦(存算分离)和人工服务实现混合数据库的统一管理。然而随着数字时代数据库架构和运行环境日趋复杂,数据库种类也从单一产品转变为混合型商业数据库和开源数据库的组合,依靠人工运维显得捉襟见肘。

  AI for DB的核心在于利用机器学习,能够给予海量运行数据形成智能运维模型,自动化处理各项任务,例如自动管理计算与存储资源、自动防范恶意访问与攻击、主动实现数据库智能调优等。

  举个简单的例子,参数调参的本质和自动驾驶的参数一样,何时打方向盘、何时踩刹车对系统而言都是一些固定的参数设置。传统的调参方式往往是“经验调参”,需要不断试错不断总结,而将机器学习能力应用在运维系统里,在数据库运行时,ML便能通过学习和分析,灵活调优,最终在每个节点都能达到最优的参数设置。

  同类型的应用还有很多,比如自定义备份策略、自动在线升级修复BUG、监控自定义报警灯等等。对传统的数据库运维方式大幅提效。

  如果说AI for DB解决的是当下效率问题,那DB for AI解决的便是AI2.0时代“入场券”问题。

  在AI 2.0时代,DB for AI一个最大的变化是多模态数据处理一体化。包括不限于时序数据、文档数据、宽表数据、结构化和非结构化数据、图数据等等融合在一起,为AIGC所需的多模态数据打下坚实的基础。

  此前,数据库按照数据类型被分为各类垂直数据库,这也是同一个企业采购多个数据库的原因,而多个数据库之间的不互通,又给了运维平台相当大的挑战,但在AIGC和多模态大模型等需求下,对数据类型和质量的要求都会提高。

  另一个方面的挑战是,对于数据库厂商而言,需要提供灵活的模型导入能力和接口,可以把第三方以及客户自己的模型一键导入,并且支持模型的数据库存储和使用,在各种各样的应用中完成所需要的推理。

  目前,国内外厂商都已经开始闻风而动。从全球局势来看,多模态数据跑在最前面的仍是微软Azure。Azure Cosmos DB支持文档、键值对、列族和图形数据,并支持Serverless(无服务)选项,用户可以按需付费,不必预配和维护,这使Azure Cosmos DB更加具有弹性,能够快速缩放,大大提高了多模数据库的易用性。

  而AWS的多模数据库Amazon Neptune本质上是一种高性能的图形数据库,支持图形数据模型和SPARQL查询语言,虽然支持键值对数据模型,但可操作性十分有限。

  国内,阿里云在刚刚过去的阿里云瑶池数据库峰会中,发布了Lindorm灵动多模态数据库,据李飞飞介绍,Lindorm 多模数据库具备多模数据处理能力,还集成了AI能力,能够生成视频、图表等AI生成式内容。用户只需写几段SQL语言,即可在数据库内完成模型的部署和推理,快速搭建AI应用的平台。

  在AIGC蓬勃发展的当下,国内多模态数据库的发展也将成为通往数据智能时代的重要支撑。 二、云原生走进2.0

  受智能化的引力牵引,云原生从1.0快速进入了2.0时代。

  关于云原生2.0时代与1.0最大的区别,李飞飞认为是“四化”:云原生化、平台化、一体化、智能化。而腾讯云总裁邱岳鹏则认为是:一体化、敏捷调用、数智融合和开箱即用。

  即便说法不同,但一体化的趋势是确定无疑的。

  在传统数据库中,不同的分类标准数据库的类型不同。比如按照功能分类,分为:OLTP、OLAP;按照数据种类分,分为时序数据库、键值数据库、图数据库等;按照数据库架构分,分为分布式数据库、集中式数据库。

  这种复杂程度,也是数据库作为基础软件“三驾马车”难以攻克的关键点之一。

  然而在云原生2.0时代,一体化不再只是软硬件的一体化,也不只是数据形式的“大杂烩”,更重要的是TP和AP的一体化提高效率,分布式集中式的一体化降低成本。

  在去年,已经有部分厂商如OceanBase、PolarDB、TDSQL-H、TiDB等都实现了 HTAP,几乎成为了新兴数据库的必选项。Gartner也提出HTAP已经成为了全球范围内新一代数据库入场的筹码,兼具AP和TP能力,将打破数据栈的割裂状态,最终让数据集中在简单易用、安全可靠、高性价比的数据平台。

  不过,过去的HTAP通常只是同一厂商TP和AP的简单“捏合”,品牌是统一的,但支持交易和分析的时候有不同架构和部署形态来适应负载。李飞飞也直言:“过去的HTAP的T和H是两个完全独立的引擎,因为MPP(大规模并行处理)和ACID(数据库事物正确执行四要素)的要求不同,除非牺牲数据的一致性和可见性,在一个引擎里,又想做行、又想做列的MPP,几乎不可能。”

  阿里云的解决办法是基于Polar DB的轻量化,通过内嵌DPS(统计软件)让数据同步、实时可见,将可见性和一致性大幅提升,同时统一的控制台和统一的标准API,尽可能弱化从A到T过程中的消耗,在体感上达到无缝流通。

  阿里云瑶池将云原生数据库PolarDB和云原生数据仓库AnalyticDB打通融合后,为企业提供统一入口,兼具数据处理与分析能力,为用户带来一站式的数据库使用体验。

  腾讯云TDSQL-H在方向上与阿里云大体一致,只不过实现的方式有所不同。腾讯云针对白天营业状态时TP场景更多,夜间营业状态AP场景更多,进行了动态调整,通过并发控制、内存控制、资源弹性划分以及参数自动调解等方式,提供完全透明的、单系统的HTAP方案。

  另一方面,集中式和分布式的界限也在逐渐模糊。

  “未来,基于云原生架构,集中式和分布式不再如长江、黄河一样泾渭分明,转化可以做得非常平滑,因为资源池化,集中式和分布式也可以一体化。”李飞飞讲道。

  事实上,这也是传统数据库的一个核心痛点。集中式和分布式是完全以数据库架构为出发点,而不考虑业务需求。客户的要求就是用尽可能低的成本、尽可能高的效率完成任务,这背后是集中式还是分布式,并不重要。

  这与云原生的“资源池化”和“资源解耦”能力有很大的关系。

  资源池化中的典型代表是湖仓一体。本质是把MPP和BSP(商业资源数据库)融合起来,无论是在线、离线、调度、混合负载,都可以在同一个数据湖中完成,且做到互不干扰,这是正在发生和接下来HTAP要突破的技术。

  云原生1.0的资源解耦主要是存储和计算的解耦,双并行作业提高效率。而云原生2.0则是CPU、内存、存储三层解耦,更容易实现云上资源秒级扩容和高可用、高可靠能力。

  基于架构的一体化,云原生2.0的另一个特点就是平台化。正所谓“合久必分、分久必合”,一个数据库“打天下”解决所有问题的时代已经结束了,取而代之的是用平台化的思维构建多个引擎,基于平台提供一站式的能力和解决方案,这是平台化的核心。

  总的来说,云原生2.0时代,不再是简单的节省成本,而是基于云原生架构的广袤空间,对当下的云数据库进行根本性的改造,从而适应越来越快的数据时代。 三、国产数据库换道超车

  从整个数据库行业来看,把握住了云原生趋势,也就抓住了国产数据库换道超车的最佳机会。

  据中国信通院发布的《数据库发展研究报告2021》统计,2025年中国的数据库市场规模将达到688亿元,5年年复合增长率达23.4%。目前,海外巨头仍占据国内数据库市场较大份额,但国产数据库经历多年沉淀,已经具备较强的竞争力。

  全球范围内的竞争潜力,都在“云原生数据库”这匹黑马上。Gartner预测,到2023年,75%的数据库都要跑在云平台上,且从2019年开始,Gartner便不再将传统数据库的性能纳入评价指标。

  在这张纷繁复杂的排名变化图中,透露了几个重要信号。

  从2011年-2021年,数据库十年变局分为三个重要阶段:

  2011年-2013年,传统数据库几乎垄断了整个市场,Oracle、IBM、SAP等传统厂商一骑绝尘;

  2013年开始,以AWS为首的云厂商杀入,云数据库进入了一段高速增长期。2014年阿里云进入、2015年华为云进入、2016年腾讯云和Snowflake进入,至2018年,云厂商们陡坡逆行,从小透明突破到前十的位置;

  2018年之后,进入了一段稳定增长期,直至2020年,微软抢占了Oracle长达近10年的霸主地位;2021年,AWS也领先Oracle成为了第三名,前五名中,有三名均是云厂商;前十名中,有7名均是云厂商。

  Gartner报告显示,云数据库现在创造了392亿美元的收入,占所有数据库的49%以上。

  而以云厂商为代表的云原生数据库增长速度之快、突破力之强,在短短五年内彻底打乱了传统数据库的市场格局,同时也保持了较强的持久力。

  以谷歌为例,其整体市场增长率几乎翻了三倍,取代了IBM和SAP,成为了全球第四大数据库提供商。Snowflake从诞生起便采用了云原生架构,即便在2016年才刚刚问世,也一路突围,目前仅次于腾讯,成为了云数据库中市值最高的独角兽企业。

  国际市场云原生数据库的突破力在国内市场同理。据IDC统计,2021年H2,本地部署数据库格局仍以Oracle为首,但云部署已经打开局面,且呈现了更加多样化的竞争格局。

  种种数据表明,云数据库已经从趋势成为了既定事实和发展前提,也是未来国产数据库“去O”的关键手段。

  而在智能化时代,数据库走过了第一阶段又立刻向第二阶段启航,以阿里云、华为云、腾讯云数据库为代表的,更强的云资源、云能力、云平台支撑下数据库,一方面带领国产数据库换道超车,另一方面也在为智能化的爆发,做全面准备。

+1

来源:光锥智能 作者:刘雨琦

推荐文章