spark如何整合hadoop

这篇文章主要介绍了spark如何整合hadoop，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。

创新互联2013年开创至今，先为西林等服务建站，西林等地企业，进行企业商务咨询服务。为西林企业网站制作PC+手机+微官网三网同步一站式服务解决您的所有建站问题。

Spark应用程序有两部分组成
1.Driver 2 Executor
Spark基本概念
Application基于Spark的用户程序，包含一个Driver 和集群的多个executor
Driver program运行Application的main函数并创建SparkContext通常用SparkContxet代表Driver Programe
Executor是为某Application运行在work node上的一个进程，该进程负责运行task，并且负责将数据存在内存
或者磁盘上，每个Application都有各自独立的executor
Cluster manager，在集群上获取集群资源的外部服务列如Standalone,Mesos ,yarn
worker node 集群中任何可以运行application代码的节点
task被送到某个executor的工作单元
job包含多个task组成的并行运算，往往由spark action催生，该术语可以经常在日志中看到
rdd由spark的基本计算单元，可以通过一系列算子操作，主要有transaformation和action操作
并行化scala集合
spark使用parallelize方法转换成RDD
val rdd1=sc.parallelize(Array(1,2,3,4,5))
val rdd2=sc.parallelize(List(0 to 10),5)
参数是slice对数据集切片，每一个slice启动一个task进行处理
Spark支持text files可以支持读取本地文件，支持整个目录读取，压缩文件的读取gzip 通配符的读取第二个参数是分片可选
使用wholeTextFiles读取目录里面的小文件
使用sequenceF可以将sequenceFile转换成rdd
使用hadoopRDD方法可以将其他任何hadoop的输入类型转化为RDD
广播变量
广播变量缓存到各个节点内存中，而不是每个task
广播变量创建后，能在任何运行的函数中调用
广播变量是只读的，不能在广播后修改
对于大数据集的广播，spark尝试用高效的传播算法来降低通信成本
使用方法 val broadcastVar=sc.broadcast(Array(1,2,3))
broadcastVar.value
累加器
累加器只支持加法操作
累加器可以高效的并行，用于实现计数器和变量求和
Spark支持原生类型和标准可变的集合计数器，但用户可以添加新的类型
只有驱动程序才能获取累加器的值
使用方法
val accnum=sc.accumulator(0)
sc.parallelize(Array(1,2,3,4)).foreach(x=>accnum+=x)
accnum.value

spark要启动start all
[root@localhost bin]# ./spark-submit --master spark://127.0.0.1:7077 --class week2.SougoQA --executor-memory 3g scala.jar hdfs://127.0.0.1:9000/dataguru/data/SogouQ1.txt hdfs://127.0.0.1:9000/dataguru/week2/output
./spark-submit --master --class week2.SougoQA --executor-memory 3g scala.jar hdfs://127.0.0.1:9000/dataguru/data/SogouQ1.txt hdfs://127.0.0.1:9000/dataguru/week2/output

感谢你能够认真阅读完这篇文章，希望小编分享的“spark如何整合hadoop”这篇文章对大家有帮助，同时也希望大家多多支持创新互联，关注创新互联行业资讯频道，更多相关知识等着你来学习!

文章标题：spark如何整合hadoop
当前网址：http://hbruida.cn/article/gpsoce.html

spark如何整合hadoop

其他资讯