使用parquet-tools的方法有2种
1.在安装了CDH的机器上,会自动有parquet-tools命令
1 | lintong@master:/opt/cloudera/parcels/CDH/bin$ ls| grep parquet-tools |
使用parquet-tools的方法有2种
1.在安装了CDH的机器上,会自动有parquet-tools命令
1 | lintong@master:/opt/cloudera/parcels/CDH/bin$ ls| grep parquet-tools |
avro-protobuf项目提供ProtobufDatumReader类,可以用于从protobuf定义生成的java class中获得avro schema
使用方法如下:
1.引入依赖
1 | <dependency> |
2.定义protobuf schema,名为other.proto,schema如下
1 | syntax = "proto3"; |
从使用protobuf定义生成java class
1 | protoc -I=./ --java_out=./src/main/java ./src/main/proto/other.proto |
3.编写java代码
1 | package com.example.demo; |
输出如下
1 | { |
注意:该工具在把protobuf schema转换成avro schema的时候,可能会出现不严谨的时候,比如在转换protobuf的uint32(0 到 2^32 -1)的时候,会统一转换成int(-2^31 ~ 2^31-1),这可能会产生问题,解决方法是使用confluent schema registry提供的工具,参考:使用confluent schema registry将protobuf schema转换成avro schema
Amazon EMR是Amazon提供的托管大数据套件,可选的组件包括Hadoop,Hive,Hue,Hbase,Presto,Spark等
使用Amazon EMR的好处是快速伸缩,版本升级也较为方便,如果配合S3存储,可以做到计算和存储分离,这样对于运维的压力会小一些,存储的稳定性交给S3,计算集群即使故障也可以很方便的进行重建,很适合小团队。缺点是界面友好程度远不如CDH和HDP。
如果使用Amazon EMR,最好阅读一下官方的2个文档:
1.Amazon EMR最佳实践
1 | https://d0.awsstatic.com/whitepapers/aws-amazon-emr-best-practices.pdf |
2.Amazon EMR迁移指南
1 | https://d1.awsstatic.com/whitepapers/amazon_emr_migration_guide.pdf |
在创建Amazon EMR集群的时候可以选择快速模式,界面如下
也可以选择高级模式
集群启动了之后,EMR大数据组件的安装目录在/usr/lib
1 | [hadoop@ip-xxxxxxxx lib]$ ls |
EMR管理组件的安装目录在/usr/share/aws/emr
1 | [hadoop@ip-xxxxxxxxxx emr]$ ls |
查看集群的cluster id,参考:https://docs.aws.amazon.com/zh_cn/emr/latest/ManagementGuide/emr-manage-view-clusters.html
1 | aws emr list-clusters |
根据cluster id查看集群配置
1 | aws emr describe-cluster --cluster-id j-xxxxxx |
在使用grafana的filter的时候,其支持一些语法用于对指标进行过滤,如下
literal_or : tagv的过滤规则: 精确匹配多项迭代值,多项迭代值以’|’分隔,大小写敏感
iliteral_or: tagv的过滤规则: 精确匹配多项迭代值,多项迭代值以’|’分隔,忽略大小写
wildcard: tagv的过滤规则: 通配符匹配,大小写敏感
iwildcard: tagv的过滤规则: 通配符匹配,忽略大小写
regexp: tagv的过滤规则: 正则表达式匹配
not_literal_or: tagv的过滤规则: 通配符取非匹配,大小写敏感
not_iliteral_or: tagv的过滤规则: 通配符取非匹配,忽略大小写
HAProxy1.9.0及其以上版本支持了Data Plane API功能,可以使用API的方式来管理HAProxy
官方网址
1 | https://github.com/haproxytech/dataplaneapi |
以及
1 | https://ci-jie.github.io/2020/10/25/HAProxy-Data-Plane-API/ |
罗列了一下第三方广告平台产品,按照广告的流程,分成4类:
DSP(广告需求方平台,广告主在上面进行投放)
ADX(广告交易平台,负责广告交易和竞价)
SSP(媒体供应方平台,媒体可以在上面售卖网站app的曝光来获得盈利)
DMP(为广告投放投放提供人群画像进行广告的受众定向,并进行人群标签画像的管理)
1.微博(DSP投放)
1 | https://tui.weibo.com/home |
微博的广告产品有超级粉丝通,粉丝头条,WAX(程序化广告交易平台)
参考:神策渠道配置详情
官网:https://admob.google.com/home/
主要是Google面向移动端的广告平台,不仅是一个移动广告联盟,而且还是一个获利平台,可帮助移动开发者利用广告创收、获取富有实用价值的分析洞见以及发展应用业务。作为一个广告联盟,AdMob 可协助您在全球范围内投放广告,从而让您利用自己的移动应用变现。作为一个变现平台,AdMob 可以协助与多个广告联盟合作的开发者最大限度地提升通过所有第三方广告联盟合作伙伴获得的广告收入。
官网:https://admanager.google.com/home/
是一款广告管理平台,适合拥有大量直销业务的大型发布商使用。Ad Manager 可提供精细控制,并支持多个广告交易平台和广告联盟,包括 AdSense、Ad Exchange、第三方广告联盟和第三方广告交易平台等。
google ad manager旨在帮助媒体公司和发布商管理和优化他们的广告库存。它提供广告投放、定价、报告和监控功能,以及与广告交易相关的工具。
官网:https://www.google.com/adsense
AdSense 是一个面向网站所有者的广告网络,它允许网站发布商在他们的网站上展示广告,并通过用户对这些广告的点击或查看来获得收入。AdSense使用自动化技术根据网站内容和访问者兴趣匹配广告,从而提供更相关的广告体验。
比如我们可以利用AdSense给博客添加广告,参考:
AdSense是Google GAM广告系统中的一个产品,可以在博客中接入Google AdSense来创造收入,下面是Google AdSense的官网
1 | https://www.google.com/intl/zh-CN_cn/adsense/start/ |