大数据Apache Druid(一):Druid简单介绍和优缺点
  

marco 2273

{{ttag.title}}
连载大数据 Apache Druid
有兴趣的可以去我头条上浏览,头条地址:https://www.toutiao.com/article/7139067948086231560/

Druid简单介绍和优缺点
一、什么是Apache Druid
Druid(德鲁伊)是一个分布式的、支持实时多维 OLAP 分析、列式存储的数据处理系统,支持高速的实时数据读取处理、支持实时灵活的多维数据分析查询。在Druid数十台分布式集群中支持每秒百万条数据写入,对亿万条数据读取做到亚秒到秒级响应。此外,Druid支持根据时间戳对数据进行预聚合摄入和聚合分析,在时序数据处理分析场景中也可以使用Druid。
Druid有对应的GUI页面,适用于实时数据提取、高性能查询场景,例如:点击流分析、网络性能监控分析、实时在线OLAP分析等。Druid官网地址:http://druid.apache.org/
注意:阿里巴巴有个开源项目也叫Druid,是一个数据库连接池项目。这里说的Apache Druid与阿里巴巴的Druid没有关系。
二、Druid优缺点
Druid有如下特点,也可以看做是Druid的优点:
  • 列式存储

Druid使用面相列的存储,对于OLAP分析需要读取列分析的场景加快了速度,同时一列数据中有很多共性的数据,数据的压缩效果好,占用空间小,支持快速扫描及聚合查询。
  • 可扩展的分布式架构

Druid在生产环境中可以部署到数十台多数百台服务器组成的集群中,可以提供每秒百万条数据的写入,针对万亿条记录做到亚秒到秒级查询。
  • 支持并行计算

Druid可以在集群中并行执行一个查询。
  • 支持实时或者批量读取数据

Druid支持实时获取数据,实时获取的数据可以实时查询,也支持批量读取数据。
  • 集群自动平衡,方便运维

Druid集群扩大或者缩小时,只需要增加或者减少对应的机器数,Druid集群自动会平衡各个节点,不需要停机。
  • 对数据进行预聚合或预计算

Druid可以人为指定按照某些时间粒度对相同维度的数据进行预聚合计算,既加快了查询速度,也减少了数据存储空间。
  • bitmap索引快速过滤

Druid中可以通过bitmap构建索引,对数据进行压缩,加快查询过滤速度。
  • 基于时间的分区

Druid首先按照时间对数据进行分区,也可以使用其他字段作为分区,这样可以加快查询速度,例如:基于时间的查询只会查询与时间匹配的分区。
Druid主要的优点在于支持流式和批量数据的导入、高并发亚秒级查询、存储索引优化。但是还有一些缺点,缺点如下:
  • 有限的join能力

Druid适用于清洗好的数据实时写入,不需要更新数据,所以数据在写入Druid之前一般需要拉宽处理,在从Druid中查询数据时,直接查询这张宽表即可。在Druid最新版本0.21.1支持join,join右侧的表都会自动存放内存再做关联,这样会降低性能。
  • 不支持多时间维度,所有维度为String类型
  • 只支持流式写入,不支持实时数据更新,更新可以使用批处理作业完成。
  • 不支持精准去重

打赏鼓励作者,期待更多好文!

打赏
暂无人打赏

marco 发表于 2022-9-8 09:24
  
学习了,感谢分享。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
发表新帖
热门标签
全部标签>
每日一问
技术盲盒
干货满满
技术笔记
新版本体验
产品连连看
GIF动图学习
自助服务平台操作指引
技术咨询
标准化排查
2023技术争霸赛专题
通用技术
秒懂零信任
信服课堂视频
功能体验
社区帮助指南
答题自测
安装部署配置
上网策略
运维工具
SANGFOR资讯
设备维护
技术晨报
项目案例
玩转零信任
深信服技术支持平台
畅聊IT
专家问答
技术圆桌
在线直播
MVP
网络基础知识
升级
安全攻防
测试报告
日志审计
问题分析处理
流量管理
每日一记
云计算知识
用户认证
原创分享
解决方案
sangfor周刊
VPN 对接
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
资源访问
地址转换
虚拟机
存储
迁移
加速技术
排障笔记本
产品预警公告
信服圈儿
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
答题榜单公布
纪元平台
卧龙计划
华北区拉练
天逸直播
以战代练
山东区技术晨报
文档捉虫活动
齐鲁TV
华北区交付直播
每周精选

本版版主

12
185
6

发帖

粉丝

关注

本版达人

LoveTec...

本周分享达人

新手24116...

本周提问达人