tonglin0325的个人主页

Thrift关键字

在编译thrift文件的时候发现报了如下的错误

1
2
Cannot use reserved language keyword: "class"

后来查了一下,发现class是thrift的关键字之一,变量起名的时候不能和关键字重复

thrift的全部关键字可以查看thrift的源码

1
2
https://github.com/apache/thrift/blob/master/compiler/cpp/src/thrift/generate/t_py_generator.cc

搜索keywords,下面这些都是thrift关键字,在起名的时候需要注意

全文 >>

ubuntu安装thrift

ubuntu环境下安装thrift-0.10.0

1.解压

2.编译安装

1
2
3
4
./configure -with-cpp -with-boost -without-python -without-csharp -with-java -without-erlang -without-perl -without-php -without-php_extension -without-ruby -without-haskell -without-go
make
sudo make install

3.是否安装成功

1
2
3
thrift -version
Thrift version 0.10.0

全文 >>

xxl-job安装教程

xxl-job是一个开源的分布式调度框架,其他类似的框架还有airflow,oozie等等,需要进行对比

1
2
https://github.com/xuxueli/xxl-job

1.首先git clone工程

1
2
git clone git@github.com:xuxueli/xxl-job.git

打包工程,打包的过程中会下载所需要的jar包

1
2
mvn package

全文 >>

Elasticsearch学习笔记——常用命令

1.创建索引,名字为index

1
2
curl -XPUT http://localhost:9200/index

2.创建一个mapping

1
2
3
4
5
6
7
8
9
10
11
12
curl -XPOST http://localhost:9200/index/fulltext/_mapping -H 'Content-Type:application/json' -d'
{
"properties": {
"content": {
"type": "text",
"analyzer": "ik_max_word",
"search_analyzer": "ik_max_word"
}
}

}'

3.查看mapping

1
2
curl -XPUT http://localhost:9200/xxx/yyy/_mapping

4.删除一个文档,按照id来删除

1
2
curl -XDELETE 'http://localhost:9200/index3/fulltext3/272'

5.通过query来删除文档

不同版本之间的es不太一样,6.2的参考

1
2
https://www.elastic.co/guide/en/elasticsearch/reference/6.2/docs-delete-by-query.html

比如使用kibana里面的dev tool,就可以删掉所有schema字段是“xxxx”的数据

1
2
3
4
5
6
7
8
9
POST xxxxx_2019-12-09/_delete_by_query
{
"query": {
"match": {
"schema": "xxxx"
}
}
}

6.es的task api,参考

1
2
http://xiaorui.cc/archives/3089

7.scroll查看数据,from+size查询最多只能查10000

参考:https://www.elastic.co/guide/en/elasticsearch/reference/6.8/search-request-scroll.html

1
2
curl -XPOST -H 'Content-Type: application/json' http://localhost:9200/_search/scroll -d@data.json

data.json

1
2
3
4
{
"scroll" : "1m",
"scroll_id" : "xxxxxxxx"
}

8.删除一个索引

1
2
curl -XDELETE http://ip:port/xxxx

  

全文 >>

Elasticsearch学习笔记——分词

1.测试Elasticsearch的分词

Elasticsearch有多种分词器(参考:https://www.jianshu.com/p/d57935ba514b)

Set the shape to semi-transparent by calling set_trans(5)

(1)standard analyzer:标准分词器(默认是这种)

set,the,shape,to,semi,transparent by,calling,set_trans,5

(2)simple analyzer:简单分词器

set, the, shape, to, semi, transparent, by, calling, set, trans

(3)whitespace analyzer:空白分词器。大小写,下划线等都不会转换

Set, the, shape, to, semi-transparent, by, calling, set_trans(5)

(4)language analyzer:(特定语言分词器,比如说English英语分词器)

set, shape, semi, transpar, call, set_tran, 5

全文 >>

Ubuntu下安装antlr-4.7.1

简介:antlr工具将语法文件转换成可以识别该语法文件所描述的语言的程序.

例如:给定一个识别json的语法,antlr工具将会根据该语法生成一个程序,该程序可以通过antlr运行库来识别输入的json.

全文 >>

Flink学习笔记——读写hudi

使用flink来读写hudi有2种API,一个是Flink SQL API,另一个是DataStream API,参考

1
https://hudi.apache.org/cn/docs/flink-quick-start-guide

首先启动yarn session

1
2
/usr/lib/flink/bin/yarn-session.sh -n 3 -s 5 -jm 1024 -tm 4096 -d

使用SQL API提交任务到YARN上的方式有以下几种:

1.使用交互式的sql client

不过由于sql client目前处于beta版本,所以建议用于原型验证,不建议在生产环境中使用,参考:Apache Flink 零基础入门(四):客户端操作的 5 种模式

1
2
https://nightlies.apache.org/flink/flink-docs-release-1.13/docs/dev/table/sqlclient/

启动

1
2
/usr/lib/flink/bin/sql-client.sh

首先使用Flink SQL创建hudi表

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Flink SQL> CREATE TABLE hudi_test_table(
_id STRING,
xxx STRING,
primary key(_id) not enforced
) WITH (
'connector' = 'hudi',
'path' = 's3a://xxxx/hudi_test_table',
'table.type' = 'MERGE_ON_READ',
'changelog.enabled'= 'true',
'compaction.async.enabled'='true',
'compaction.tasks'= '4',
'compaction.trigger.strategy'= 'time_elapsed',
'compaction.delta_seconds'= '600',
'compaction.max_memory'= '1024',
'write.option' = 'upsert',
'read.streaming.check-interval'= '3',
'hive_sync.enable' = 'true',
'hive_sync.mode' = 'hms',
'hive_sync.metastore.uris' = 'thrift://xxx:9083',
'hive_sync.table'='hudi_test_table',
'hive_sync.db'='default',
'write.tasks'='4'
);

查询该hudi表

1
2
Flink SQL> select * from hudi_test_table limit 10;

查询结果

在生产环境中如果使用FlinkSQL,建议使用

全文 >>

wherehows踩坑记录

wherehows是Linkedin开源的大数据治理框架,提供了元数据管理,数据血缘,数据预览,集成多种数据源的功能,最近在进行调研工作

类似的框架有Netflix的metacat,这个两个开源项目都是坑不少,目前还在踩坑阶段中…由于网上关于这两个项目的文章有价值,本文希望能对你有帮助

其他公司也有很多类似的数据发现系统,参考:Data Discovery Platforms and Their Open Source Solutions

全文 >>

elephant-bird学习笔记

elephant-bird是Twitter的开源项目,项目的地址为 https://github.com/twitter/elephant-bird

该项目是Twitter为LZO,thrift,protocol buffer相关的hadoop InputFormats, OutputFormats, Writables, Pig加载函数, Hive SerDe, HBase二级索引等编写的库

1
2
mvn clean install -U -Dprotobuf.version=2.5.0 -DskipTests=true

mvn package的时候需要签名

1
2
gpg --gen-key

以及需要安装apache Thrift和Protocol Buffers

thrift安装参考

1
2
https://www.cnblogs.com/tonglin0325/p/10190050.html

PB安装参考

1
2
https://www.cnblogs.com/tonglin0325/p/13685527.html

全文 >>