布隆过滤器的实现方法1:自己实现
参考 http://www.cnblogs.com/naive/p/5815433.html
bllomFilter两个参数分别代表,布隆过滤器的大小和hash函数的个数
1 | #coding:utf-8 |
布隆过滤器的实现方法1:自己实现
参考 http://www.cnblogs.com/naive/p/5815433.html
bllomFilter两个参数分别代表,布隆过滤器的大小和hash函数的个数
1 | #coding:utf-8 |
1.Python下安装方法
1 | git clone --recursive https://github.com/dmlc/xgboost |
如果在import xgboost后,遇到问题
1 | OSError: /home/common/anaconda2/lib/python2.7/site-packages/scipy/sparse/../../../../libstdc++.so.6: version `GLIBCXX_3.4.20' not found (required by /home/common/coding/coding/Scala/xgboost/python-package/xgboost/../../lib/libxgboost.so) |
解决方法
1 | conda install libgcc |
2.Java下安装方法
请先在Python下安装好,因为上面的gcc版本问题会影响到java下xgboost的编译和安装
先更新
1 | git pull && git submodule init && git submodule update && git submodule status |
然后参考
1 | http://xgboost.readthedocs.io/en/latest/jvm/ |
查看安装的库
1 | pip list或者pip freeze |
查看过时的库
1 | pip list --outdated |
批量更新的Python脚本
1 | import pip |
Kaggle的房价数据集使用的是Ames Housing
1 | package kaggle |
1 | import org.apache.spark.ml.classification.RandomForestClassifier |
使用Stanford Corenlp对中文进行词性标注
语言为Scala,使用的jar的版本是3.6.0,而且是手动添加jar包,使用sbt添加其他版本的时候出现了各种各样的问题
添加的jar包有5个
代码
1 | import edu.stanford.nlp.pipeline.{Annotation, StanfordCoreNLP} |
1.导入JSON数据的方式有两种,一种是在web管理界面中导入,另一种是使用curl命令来导入
1 | curl http://localhost:8983/solr/baikeperson/update/json?commit=true --data-binary @/home/XXX/下载/person/test1.json -H 'Content-type:text/json; charset=utf-8' |
2.导入的时候注意格式
使用curl可以导入的格式
1 | { |
1.进入Solr管理界面http://localhost:8983/solr/
可以看到Query中有若干的参数,其意义如下(参考:http://www.jianshu.com/p/3c4cae5dee8d)
Solr的查询语法:
Solr默认有三种查询解析器(Query Parser):
第一种是标准的Parser,最后一种是最强大的,也是Sunspot默认使用的Parser。
下面是DisMax Parser可以使用的: