腾讯云自研数据库(腾讯云和阿里云的优劣势)

2025-1-12

基于腾讯云数仓 Doris 开启实时统一数据分析之路

Apache Doris是一款基于现代MPP架构大规模分布式技术实现的SQL分析型数据库，其在PB级数据量下提供近乎毫秒级的查询性能。自2008年至今，Doris经过14年的迭代开发，成为开源社区中少数能走向成熟的项目之一，拥有百度、阿里、腾讯、美团、京东、小米等近400名开发者及6000多个Star。基于Doris的商业化公司如鼎石公司（产品StarRocks）及飞轮（产品SelectDB）也相继涌现，SelectDB在性能上宣称成为全球第一，进一步证明了Doris的卓越性能。

基于Doris的成熟技术，腾讯云推出腾讯云Doris，本文将结合其适用场景和核心技术，分享如何使用云数据仓库Doris开启实时统一数据分析之路。

Doris的技术架构旨在简化安装部署和开发运维，同时支持PB级大数据规模。它基于早期Impala版本进行改造，减少组件至FE（前端）和BE（后端）。FE和BE分别承担如下职责：FE为Java代码实现，简化了Impala反向调用FE的逻辑，并开发了全新的元数据系统，使得FE成为真正的前端，用户可以通过任意MySQL客户端进行查询；BE为C++代码，仅执行引擎沿用了Impala代码，其余部分从头自研，包括分布式存储。

FE元数据存储在内存中，实现了一个基于Paxos协议的高可用架构，支持读写分离和故障转移，多个FE节点支持高并发。BE分布式管理框架自动管理数据副本分布、修复和均衡，包括感知并自动修复副本损坏的情况。FE和BE均能通过简单SQL命令实现水平扩缩容。此外，Doris设计目标为完全不依赖第三方系统，去掉了Impala对Hadoop体系的支持。

Apache Doris作为分析性数据库，适用于多种场景，包括OLAP多维分析和报表、实时数仓和数据分析、高并发场景以及大数据和数据库统一分析。OLAP多维分析利用数据立方体进行钻取、上卷、切片、切块和旋转操作，实现高维表上的高速随意探查。实时数仓和数据分析通过分区和分桶技术，支持PB级数据量上的实时增删改查。高并发场景下，Doris通过MPP查询引擎和Exchange节点实现高效查询，同时提供丰富的索引结构加速数据读取和过滤。Doris还支持Hadoop生态，兼容Flink、Spark写入，可导入HDFS数据，甚至通过Hive外表查询Hive数据。

总结而言，Apache Doris以其卓越的性能、极简的架构和广泛的应用场景，成为开源OLAP数仓/引擎中的佼佼者，适用于多种数据分析需求，是构建实时统一数据分析平台的理想选择。

企业向量数据库在哪买

企业向量数据库可以在腾讯云等云服务提供商处购买。以腾讯云为例，其提供的向量数据库Tencent Cloud VectorDB是一款全托管的自研企业级分布式数据库服务，专为存储、检索、分析多维向量数据设计。该数据库支持多种索引类型和相似度计算方法，能够处理千亿级向量数据规模，并具备高性能、高可用性和高可扩展性。

购买流程通常包括选择数据库规格、配置参数、购买实例等步骤。用户可以根据自身需求选择合适的版本和配置，如单机版、存储型或高可用版等，以满足不同场景下的数据存储和检索需求。

此外，腾讯云还提供了丰富的文档和教程，帮助用户快速上手和使用向量数据库。用户可以通过腾讯云官网了解更多关于向量数据库的信息，并按照指引完成购买和使用流程。

请注意，不同云服务提供商提供的向量数据库产品可能有所不同，用户在购买前应根据自身需求和预算进行综合考虑。

腾讯tidb是自研的吗

不是的。

最开始，我们调研了开源的分布式NewSQL方案：TIDB。虽然TIDB是非常优秀的NewSQL产品，但是对于我们的业务场景来说，TIDB并不是非常适合，原因如下：

需要一款高吞吐，低延迟的数据库解决方案，但是TIDB由于要满足事务，2pc方案天然无法满足低延迟（100ms以内的99rt，甚至50ms内的99rt）

多数业务，并不真正需要分布式事务，或者说可以通过其他补偿机制，绕过分布式事务。这是由于业务场景决定的。

TIDB三副本的存储空间成本相对比较高。

内部一些离线数据导入在线系统的场景，不能直接和TIDB打通。

基于以上原因，我们开启了自研符合自己业务需求的NewSQL之路。

阅读剩余

作者：云服务器测评

链接：https://www.i40.top/txy/180531.html

文章版权归作者所有，未经允许请勿转载。

THE END