合 超融合数据库YMatrix简介
简介
YMatrix 数据库是?
YMatrix (MatrixDB)是四维纵横(YMatrix)基于 PostgreSQL / Greenplum 经典系开源数据库开发出的超融合数据库产品。除游刃有余在时序场景,它还同时支持在线事务处理(OLTP)、在线分析处理(OLAP)等经典场景。 它将围绕高可用、安全、高性能、自动化运维、可视化安装和数据处理等企业需求,为企业用户需求落地提供保障。其核心价值是具有成本优势的易用、高性能读 / 写、高存储率及高可用。
YMatrix(原MatrixDB)是四维纵横推出的超融合型分布式数据库产品,是全球首款同时支持在线事务处理(OLTP)、在线分析处理(OLAP)和物联网时序应用的超融合型分布式数据库,具备严格分布式事务一致性、水平在线扩容、安全可靠、成熟稳定、兼容PostgreSQL/Greenplum协议和生态等重要特性。为万物互联的智能时代提供坚实、简洁的智能数据核心基础设施,为物联网应用、工业互联网、智能运维、智慧城市、实时数仓、智能家居、车联网等场景提供一站式高效解决方案。
YMatrix 也提供了社区版本,欢迎你的体验与反馈。
YMatrix 的核心特性有?
YMatrix 具有以下核心特性:
超融合架构
YMatrix 的超融合架构它可以解决传统数据库的“信息孤岛”的问题,实现“一库多用”。它主要从两个方面体现:微内核与 MPP(Massively Parallel Processing) 。
- 微内核。在 YMatrix 中,微内核主要包含存储引擎及执行引擎。不同的微内核为不同的场景而优化,譬如 OLTP 微内核(HEAP 存储引擎 + 火山执行引擎)适合 TP 场景,时序微内核(MARS2 存储引擎 + 向量化执行引擎)适合时序场景。微内核选用的存储引擎通常是固定的,执行器则根据优化器代价评估的结果而定。综上,你可根据不同业务场景选择更合适的插件组合,从而达到数据库快速灵活扩展的目的,而又不影响整体核心系统的稳定。
- 分布式 MPP 架构,又称无共享(Shared Nothing)架构。指具有两个或多个处理器协同执行一个操作的系统,每一个处理器都有其自己的内存、操作系统和磁盘。 YMatrix 使用这种高性能系统架构来分布数据库的负载同时可使用系统的所有资源并行处理一个查询,以达到高性能。
高性能
YMatrix 关注全场景性能表现,包括写入能力、时序查询能力、OLAP 分析、机器学习(Machine Learning)性能以及 OLTP 能力等。以下介绍写入与查询性能:
- 写入:流式写入工具 MatrixGate 同时支持多种数据类型的高速写入,具有高并发、分布式、流式、批量写入数据等特性,可以超越期待地满足企业时序场景下的实时入库,同时提供完整的事务保证;
- 查询:支持行列混存,以高压缩比的存储引擎 MARS2 为基石,使用基于代价的优化器 (CBO)为你选出最高效的执行计划,(5.0 版本及以上)默认开启向量化执行引擎,经 SSB(Star Schema Benchmark)、TSBS(Time Series Benchmark Suite)的严格测试,确保你获得远超同类产品的查询性能体验。
高可用
- 故障自动转移:得益于 YMatrix(5.0 及以上版本)的全新自动运维机制,当集群主节点(Master)、数据节点(Segment)发生故障时,可自动切换主备节点,完成故障转移。
- 流式复制:Master 和 Segment 都可通过流式复制机制实现数据的高可用。
简洁易用
- 图形化安装:10 分钟完成集群部署;3 分钟模拟时序场景的查询与写入。
- 图形化运维监控:界面简洁,信息多元,一键实现秒级扩容。
企业级安全
YMatrix 具有 360 度的安全访问机制,包括认证、权限控制、加密、审计、资源控制。
- 认证:丰富的认证方法。信任认证、口令认证、PAM 证等多种认证方式。
- 权限控制:采用基于角色的访问控制机制,通过角色机制,简化了用户和权限的关联性。
- 加密:提供不同级别的加密。口令存储加密;为指定字段加密;SSL 主机认证;客户端加密;透过网络加密数据;跨网络加密口令;数据库分区加密。
- 审计:记录用户的登录退出以及登录后在数据库里的行为操作,根据安全等级不一样设置不一样级别的审计。
- 资源控制:有严格的地址访问限制,确保用户来源可信;可配置用户最大并发连接数;具有默认的连接超时策略。
完备生态
- 完全兼容 PostgreSQL / Greenplum 生态上下游工具链。
YMatrix 支持的业务场景有?
- 有复杂数据处理业务,需要融合架构的场景
在传统工业企业中,海量数据由于组织战略、架构设置、数字化建设等原因,分散存储在组织的各个部门、业务系统、应用之中,彼此无法互联互通,也无法被利用,形成了一个又一个的“信息孤岛”,除技术上难度指数高外,更是严重影响了企业经营中对竞争优势的获取。数据孤岛大大制约着企业的管理、经营、发展,是企业数字化转型必须打破的难关。
目前,YMatrix 的超融合架构已成功应用于工厂数据基座、大型公司集团数仓、智能网联汽车、物联设备智能运营等真实生产场景,大幅降低企业选型、采购、使用及运维时的技术门槛,得到良好反馈。如在智能制造场景中,一库即可完成对企业资源计划系统(ERP,Enterprise Resource Planning)数据、制造执行系统(MES,Manufacturing execution systems)数据、设备数据等的采集、存储、计算、建模、查询、分析。 - 有复杂时序分析的场景
时序数据是物联网、车联网、工业互联网和智慧城市的基础数据,其核心特征即实时,对数据库写入、存储能力要求高,如何在保证性能的同时控制成本;如何更安全、快速地实现扩容,避免数据积压;如何降低技术门槛,更快速准确地应对新的数据需求,成为了企业必须要解决的问题。
YMatrix 针对时间进行了优化。得益于 MARS2 存储引擎物理排序、异频上传、分批上传数据及 MatrixGate 高并发、分布式、流式、批量写入数据的能力,YMatrix 可以超越期待地满足企业时序场景下的实时入库,高速写入,实时查询,事务保证等需求。
YMatrix 支持图形化扩容,操作简洁,轻松秒级扩容;支持平滑扩容,无需中断业务,保障业务安全、流畅,减少停机损失,降低风险。 - 有海量设备的泛物联网场景
常见的泛物联网场景有智慧园区、智能家居、智能交通、智慧水务、智慧农业、智慧气象等。海量设备意味着海量数据的写入、存储与查询,存储的成本(压缩比)、访问的效率(解压效率)是此场景数据基础设施稳定性建设的决定性因素,高速写入、实时查询性能则是终端用户体验的重要指标。
除 PB 级集群容量外,YMatrix 还具备专利编码链压缩技术,支持业务人员对每一个数据列的数据特征因地制宜地采用最适合编码方案,从而达到最佳性价比,为企业节省超 50% 存储成本,让海量数据存储不再是负担。
得益于 MatrixGate 高并发、分布式、流式、批量写入数据的能力,YMatrix 在硬件性能的配合下,可实现秒级入库。
得益于全面向量化(5.0 版本及以上),YMatrix 的 SSB 性能经测试是 Clickhouse 的 1.24 倍,达到世界级的高吞吐、低延迟查询。 - 传统数仓 OLAP 场景
YMatrix 兼容 PostgreSQL / Greenplum 生态,可以支持金融、电信、政府、能源、制造等行业经典的 OLAP 场景,支持商务智能(BI,Business Intelligence)和报表分析。
此类场景更多见非时序数据,使用 Hadoop 生态完成数据生产及消费:Hadoop 平台储存历史数据,再使用 Spark 计算报表指标,过程复杂。
使用 YMatrix 可以通过融合结构化、非结构化数据类型、数据联邦访问、图形化接入 Kafka 数据流、冷热数据分离等功能一站式实现此场景所需的数据消费,同时具备故障自动转移、故障自动恢复机制,安全、简洁、易用。
场景应用
场景一:实时数据仓库,实时数据实时决策
为了更好支持业务实时分析和数据驱动决策,实时数据仓库成为企业数据分析和决策支持的标准配置。相比传统的隔天 T+1 离线数据分析,实时数据仓库可以在业务交易后立即将数据流式注入数据仓库,实现 T+0 计算、分析和决策。相比依赖多种产品组件搭积木的方式构建的实时数据仓库,YMatrix 简洁而高效。
基于强大的实时数据处理能力,YMatrix 可以为企业提供全方位的分析能力:
- 看到过去的统计分析
- 面向未来的预测分析
- 决定现在的运营分析
某大型金融机构采用实时数据仓库方案,通过秒级交易数据注入,实现反欺诈反洗钱等合规检查,保护人民财产安全。
场景二:集成 OT 域生产数据和 IT 域运营数据,实现两化融合
两化融合指技术、产品、业务和产业四个方面的融合,涉及企业生产和运营的方方面面。由于我国工业水平参差不齐,两化融合推行起来比较缓慢。YMatrix 创新性的提出两化数据融合先行战略,从推进 IT 域数据和 OT 域数据融合着手,建立对企业的 360 度感知和管理,进而逐步实现技术、产品、业务和产品的融合。
某大型制造业企业采用 YMatrix 打通 IT 运营域数据(包括 ERP、SCM、CRM、人事、财务等)和 OT 生产域数据(包括设备数据、SCADA、MES 等),彻底消除数据孤岛问题和数据质量低下问题,让企业管理者对企业内外部的各种事件了如指掌,进而基于数据进行科学决策。
大型企业通常有众多子公司,每个子公司分布在不同城市,这给总公司的管理带来诸多挑战。通过原创的 matrix2matrix 技术,企业总部可以对各个工厂数据了如指掌,从而进行及时高效的管理,大幅提升了企业效率,降低了生产管理运营成本。