tonglin0325的个人主页

读《浪潮之巅》有感

前阵子在忙考试和论文的事,有些事情就耽搁了,所以现在补上《浪潮之巅》读后感
对于一个弄潮的年轻人来讲,最幸运的,莫过于赶上一波大潮。 ———— 《浪潮之巅》

全文 >>

ubuntu下安装gedit插件

因为gedit-plugins : 依赖: gir1.2-zeitgeist-2.0

所以首先

1
2
sudo apt-get install gir1.2-zeitgeist-2.0

 如果报错可以先

1
2
sudo apt-get update

 然后

1
2
sudo apt-get install gedit-plugins

 在gedit的插件里面选中嵌入终端、单词补全等插件就行了

MPP数据仓库简介

MPP(Massively Parallel Processor/大规模并行处理)数据仓库,其属于OLAP(Online analytical processing,联机分析处理)的范畴

其中,ROLAP指的是(Relational OLAP/关系OLAP);MOLAP指的是(Multi-dimensional OLAP/多维OLAP),参考:主流开源OLAP引擎大比拼

ROLAP 的优点和缺点

ROLAP的典型代表是:Presto,Impala,Doris,GreenPlum,Clickhouse,Elasticsearch,Hive,Spark SQL,Flink SQL

数据写入时,ROLAP并未使用像MOLAP那样的预聚合技术;ROLAP收到Query请求时,会先解析Query,生成执行计划,扫描数据,执行关系型算子,在原始数据上做过滤(Where)、聚合(Sum, Avg, Count)、关联(Join),分组(Group By)、排序(Order By)等,最后将结算结果返回给用户,整个过程都是即时计算,没有预先聚合好的数据可供优化查询速度,拼的都是资源和算力的大小。

ROLAP 不需要进行数据预处理 ( pre-processing ),因此查询灵活,可扩展性好。这类引擎使用 MPP 架构 ( 与Hadoop相似的大型并行处理架构,可以通过扩大并发来增加计算资源 ),可以高效处理大量数据。

但是当数据量较大或 query 较为复杂时,查询性能也无法像 MOLAP 那样稳定。所有计算都是即时触发 ( 没有预处理 ),因此会耗费更多的计算资源,带来潜在的重复计算。

因此,ROLAP 适用于对查询模式不固定、查询灵活性要求高的场景。如数据分析师常用的数据分析类产品,他们往往会对数据做各种预先不能确定的分析,所以需要更高的查询灵活性。

MOLAP 的优点和缺点

全文 >>