腾讯云自研数据库(腾讯云和阿里云的优劣势)
基于腾讯云数仓 Doris 开启实时统一数据分析之路
Apache Doris是一款基于现代MPP架构大规模分布式技术实现的SQL分析型数据库,其在PB级数据量下提供近乎毫秒级的查询性能。自2008年至今,Doris经过14年的迭代开发,成为开源社区中少数能走向成熟的项目之一,拥有百度、阿里、腾讯、美团、京东、小米等近400名开发者及6000多个Star。基于Doris的商业化公司如鼎石公司(产品StarRocks)及飞轮(产品SelectDB)也相继涌现,SelectDB在性能上宣称成为全球第一,进一步证明了Doris的卓越性能。
基于Doris的成熟技术,腾讯云推出腾讯云Doris,本文将结合其适用场景和核心技术,分享如何使用云数据仓库Doris开启实时统一数据分析之路。
Doris的技术架构旨在简化安装部署和开发运维,同时支持PB级大数据规模。它基于早期Impala版本进行改造,减少组件至FE(前端)和BE(后端)。FE和BE分别承担如下职责:FE为Java代码实现,简化了Impala反向调用FE的逻辑,并开发了全新的元数据系统,使得FE成为真正的前端,用户可以通过任意MySQL客户端进行查询;BE为C++代码,仅执行引擎沿用了Impala代码,其余部分从头自研,包括分布式存储。
FE元数据存储在内存中,实现了一个基于Paxos协议的高可用架构,支持读写分离和故障转移,多个FE节点支持高并发。BE分布式管理框架自动管理数据副本分布、修复和均衡,包括感知并自动修复副本损坏的情况。FE和BE均能通过简单SQL命令实现水平扩缩容。此外,Doris设计目标为完全不依赖第三方系统,去掉了Impala对Hadoop体系的支持。
Apache Doris作为分析性数据库,适用于多种场景,包括OLAP多维分析和报表、实时数仓和数据分析、高并发场景以及大数据和数据库统一分析。OLAP多维分析利用数据立方体进行钻取、上卷、切片、切块和旋转操作,实现高维表上的高速随意探查。实时数仓和数据分析通过分区和分桶技术,支持PB级数据量上的实时增删改查。高并发场景下,Doris通过MPP查询引擎和Exchange节点实现高效查询,同时提供丰富的索引结构加速数据读取和过滤。Doris还支持Hadoop生态,兼容Flink、Spark写入,可导入HDFS数据,甚至通过Hive外表查询Hive数据。
总结而言,Apache Doris以其卓越的性能、极简的架构和广泛的应用场景,成为开源OLAP数仓/引擎中的佼佼者,适用于多种数据分析需求,是构建实时统一数据分析平台的理想选择。
企业向量数据库在哪买
企业向量数据库可以在腾讯云等云服务提供商处购买。以腾讯云为例,其提供的向量数据库Tencent Cloud VectorDB是一款全托管的自研企业级分布式数据库服务,专为存储、检索、分析多维向量数据设计。该数据库支持多种索引类型和相似度计算方法,能够处理千亿级向量数据规模,并具备高性能、高可用性和高可扩展性。
购买流程通常包括选择数据库规格、配置参数、购买实例等步骤。用户可以根据自身需求选择合适的版本和配置,如单机版、存储型或高可用版等,以满足不同场景下的数据存储和检索需求。
此外,腾讯云还提供了丰富的文档和教程,帮助用户快速上手和使用向量数据库。用户可以通过腾讯云官网了解更多关于向量数据库的信息,并按照指引完成购买和使用流程。
请注意,不同云服务提供商提供的向量数据库产品可能有所不同,用户在购买前应根据自身需求和预算进行综合考虑。
腾讯tidb是自研的吗
不是的。
最开始,我们调研了开源的分布式NewSQL方案:TIDB。虽然TIDB是非常优秀的NewSQL产品,但是对于我们的业务场景来说,TIDB并不是非常适合,原因如下:
需要一款高吞吐,低延迟的数据库解决方案,但是TIDB由于要满足事务,2pc方案天然无法满足低延迟(100ms以内的99rt,甚至50ms内的99rt)
多数业务,并不真正需要分布式事务,或者说可以通过其他补偿机制,绕过分布式事务。这是由于业务场景决定的。
TIDB三副本的存储空间成本相对比较高。
内部一些离线数据导入在线系统的场景,不能直接和TIDB打通。
基于以上原因,我们开启了自研符合自己业务需求的NewSQL之路。