使用MLlib库中的机器学习算法对垃圾邮件进行分类
分类的垃圾邮件的如图中分成4个文件夹,两个文件夹是训练集合,两个文件夹是测试集合

build.sbt文件
1 | name := "spark-first" |
代码
1 | import org.apache.hadoop.io.{IntWritable, LongWritable, MapWritable, Text} |
使用MLlib库中的机器学习算法对垃圾邮件进行分类
分类的垃圾邮件的如图中分成4个文件夹,两个文件夹是训练集合,两个文件夹是测试集合
build.sbt文件
1 | name := "spark-first" |
代码
1 | import org.apache.hadoop.io.{IntWritable, LongWritable, MapWritable, Text} |
许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用、训练机器学习模型的应用, 还有自动检测异常的应用。Spark Streaming 是 Spark 为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的 API 来编写流式计算应用,这样就可以大量重用批处理应用的技术甚至代码。
Spark Streaming 使用离散化流( discretized stream)作为抽象表示, 叫作 DStream。 DStream 是随时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为 RDD 存在,而 DStream 是由这些 RDD 所组成的序列(因此得名“离散化”)。DStream 可以从各种输入源创建,比如 Flume、 Kafka 或者 HDFS。创建出来的 DStream 支持两种操作,一种是转化操作( transformation) ,会生成一个新的DStream,另一种是输出操作( output operation),可以把数据写入外部系统中。DStream提供了许多与 RDD 所支持的操作相类似的操作支持,还增加了与时间相关的新操作,比如滑动窗口。
build.sbt
1 | name := "spark-first" |
1.断言
**assert(conditon)**将在条件不成立的时候,抛出assertionError
**assert(conditon,explanation)**讲在条件不成立的时候,抛出explanation作为说明
1 | package com.scala.first |
1.样本类
在申明的类前面加上一个case修饰符,带有这种修饰符的类被称为样本类(case class)。
被申明为样本类的类的特点:1.会添加和类名一致的工厂方法;2.样本类参数列表中的所有参数隐式获得了val前缀,因此它被当做字段维护;3.编译器被这个样本类添加了toString、hashcode、equals方法的实现;4.支持了模式匹配
1.Option类型
Option类型可以有两种类型,一种是Some(x),一种是None对象
比如Scala的Map的get方法发现了指定键,返回Some(x),没有发现,返回None对象
1.首先在HBase中建立一张表,名字为student
一个cell的值,取决于Row,Column family,Column Qualifier和Timestamp
HBase表结构
2.往HBase中写入数据,写入的时候,需要写family和column
build.sbt
1 | libraryDependencies ++= Seq( |
在hbaseshell中写数据的时候,写的是String,但是在idea中写代码的话,如果写的是int类型的,就会出现\x00…的情况
1 | import org.apache.spark.{SparkConf, SparkContext} |
使用Spark读写HDFS中的parquet文件
文件夹中的parquet文件
build.sbt文件
1 | name := "spark-hbase" |
1.简化代码
1 | package com.scala.first |
1.使用Spark读取MySQL中某个表中的信息
build.sbt文件
1 | name := "spark-hbase" |
进入HBase的安装目录,****启动HBase
1 | bin/start-hbase.sh |
打开shell命令行模式
1 | bin/hbase shell |
关闭HBase
1 | bin/stop-hbase.sh |