1.启动pyspark

对比thrift使用TCompactProtocol协议,protobuf使用,以及avro使用AvroKeyOutputFormat格式进行序列化对数据进行序列化后数据量大小
由于thrift的binary数据类型不能再次序列化化成二进制,所以测试的schema中没有binary类型的字段
测试数据的avro schema定义如下
1 | { |
测试数据的thrift schema定义如下
1 | namespace java com.linkedin.haivvreo |
1.设置用户名和邮箱
1 | git config --global user.name "xxxx" |
2.查看当前git的用户和邮箱
1 | git config user.name |
3.生成秘钥,回车3下,不设置密码
1 | ssh-keygen -t rsa -C "xxx@xxx.edu.cn" -f ~/.ssh/id_rsa_github |
4. ssh目录在etc/ssh下
~/.ssh/config配置文件如下
1 | #自己私人用的 GitHub 帳號,id_rsa 就是我自己原本用的 ssh key |
5.上传.pub公钥到github
6.可以git clone了
feast是google开源的一个特征平台,其提供特征注册管理,以及和特征存储(feature store),离线存储(offline store)和在线存储(online store)交互的SDK,官网文档:
1 | https://docs.feast.dev/ |
目前最新的v0.24版本支持的离线存储:File,Snowflake,BigQuery,Redshift,Spark,PostgreSQL,Trino,AzureSynapse等,参考:
1 | https://docs.feast.dev/reference/offline-stores |
在线存储:SQLite,Snowflake,Redis,Datastore,DynamoDB,PostgreSQL,Cassandra等,参考:
1 | https://docs.feast.dev/reference/online-stores |
**provider