安装的过程请参考 Ubuntu14.04下同时安装Anaconda2与Anaconda3
启动的时候cd到$HOME/anaconda2/envs/py3k/bin下
1 | source activate py3k #启动 |
然后记得在/etc/profile中加上
1 | # added by Anaconda2 4.3.1 installer |
如果想安装包,直接pip install
安装的过程请参考 Ubuntu14.04下同时安装Anaconda2与Anaconda3
启动的时候cd到$HOME/anaconda2/envs/py3k/bin下
1 | source activate py3k #启动 |
然后记得在/etc/profile中加上
1 | # added by Anaconda2 4.3.1 installer |
如果想安装包,直接pip install
1.首先需要安装Hadoop和Hive
安装的时候参考 http://blog.csdn.net/jdplus/article/details/46493553
安装的版本是apache-hive-2.1.1-bin.tar.gz,解压到/usr/local目录下
然后在/etc/profile文件中添加
1 | export HIVE_HOME=/usr/local/hive |
2.修改配置文件
在bin/hive-config.sh文件中添加
1 | export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_121 |
添加hive-env.sh文件
1 | cp hive-env.sh.template hive-env.sh |
布隆过滤器的实现方法1:自己实现
参考 http://www.cnblogs.com/naive/p/5815433.html
bllomFilter两个参数分别代表,布隆过滤器的大小和hash函数的个数
1 | #coding:utf-8 |
布隆过滤器的实现方法2:使用pybloom
参考 http://www.jianshu.com/p/f57187e2b5b9
1 | #coding:utf-8 |
输出
这里下载的是 kafka_2.10-0.10.0.0.tgz 和 zookeeper-3.4.10.tar.gz
可以在清华镜像站下载
1 | https://mirrors.tuna.tsinghua.edu.cn/apache/ |
或者apache官网
1 | https://kafka.apache.org/downloads |
然后分别解压到/usr/local目录下
进入zookeeper目录,在conf目录下将zoo_sample.cfg文件拷贝,并更名为zoo.cfg
参考 https://my.oschina.net/phoebus789/blog/730787
zoo.cfg文件的内容
1.Python下安装方法
1 | git clone --recursive https://github.com/dmlc/xgboost |
如果在import xgboost后,遇到问题
1 | OSError: /home/common/anaconda2/lib/python2.7/site-packages/scipy/sparse/../../../../libstdc++.so.6: version `GLIBCXX_3.4.20' not found (required by /home/common/coding/coding/Scala/xgboost/python-package/xgboost/../../lib/libxgboost.so) |
解决方法
1 | conda install libgcc |
2.Java下安装方法
请先在Python下安装好,因为上面的gcc版本问题会影响到java下xgboost的编译和安装
先更新
1 | git pull && git submodule init && git submodule update && git submodule status |
然后参考
1 | http://xgboost.readthedocs.io/en/latest/jvm/ |
几个xgboost的Scala实现方法
1 | https://www.elenacuoco.com/2016/10/10/scala-spark-xgboost-classification/ |
查看安装的库
1 | pip list或者pip freeze |
查看过时的库
1 | pip list --outdated |
批量更新的Python脚本
1 | import pip |
更新pip
1 | pip install --upgrade pip |
Kaggle的房价数据集使用的是Ames Housing dataset,是美国爱荷华州的艾姆斯镇2006-2010年的房价
首先使用Python的pandas加载一下训练样本和测试样本,数据的格式是csv格式的,且第一列是特征的名称
查看一下特征的维度
1 | import pandas as pd |
输出如下,除去Id和SalePrice,总共有79维的特征
1 | (1460, 79) |
翻译一下给的房屋数据的特征,这里定义了一个dict,方便理解每个特征的含义
1 | dict = { |
1 | # 查看特征是离散特征还是连续特征 |
1 | package kaggle |
1 | import org.apache.spark.ml.classification.RandomForestClassifier |
使用Stanford Corenlp对中文进行词性标注
语言为Scala,使用的jar的版本是3.6.0,而且是手动添加jar包,使用sbt添加其他版本的时候出现了各种各样的问题
添加的jar包有5个
代码
1 | import edu.stanford.nlp.pipeline.{Annotation, StanfordCoreNLP} |
关于词性标记
动词,形容词(4种):VA,VC,VE,VV
1、谓词性形容词:VA
谓词性形容词大致上相当于英语中的形容词和中文语法中、文学作品里的静态动词。我们的谓词性形容词包括两类:
第一类:没有宾语且能被“很”修饰的谓语。
第二类:源自第一类的、通过重叠(如红彤彤)或者通过名词加形容词模式意味着“像N一样A”(如雪白)的谓语。这个类型的谓词性形容词没有宾语,但是有一些不能被“很”修饰,因为这些词的强调意思已经内嵌在词内了。