Spark – 第6页 – gitweixin

Spark, 数据挖掘 11月 17,2020

Spark Streaming调优经验

Spark Streaming调优

操作场景

Streaming作为一种mini-batch方式的流式处理框架，它主要的特点是：秒级时延和高吞吐量。因此Streaming调优的目标：在秒级延迟的情景下，提高Streaming的吞吐能力，在单位时间处理尽可能多的数据。

说明：

本章节适用于输入数据源为Kafka的使用场景。

操作步骤

一个简单的流处理系统由以下三部分组件组成：数据源 + 接收器 + 处理器。数据源为Kafka，接受器为Streaming中的Kafka数据源接收器，处理器为Streaming。

对Streaming调优，就必须使该三个部件的性能都最优化。

数据源调优 在实际的应用场景中，数据源为了保证数据的容错性，会将数据保存在本地磁盘中，而Streaming的计算结果全部在内存中完成，数据源很有可能成为流式系统的最大瓶颈点。对Kafka的性能调优，有以下几个点：
- 使用Kafka-0.8.2以后版本，可以使用异步模式的新Producer接口。
- 配置多个Broker的目录，设置多个IO线程，配置Topic合理的Partition个数。
详情请参见Kafka开源文档中的“性能调优”部分：http://kafka.apache.org/documentation.html
接收器调优 Streaming中已有多种数据源的接收器，例如Kafka、Flume、MQTT、ZeroMQ等，其中Kafka的接收器类型最多，也是最成熟一套接收器。 Kafka包括三种模式的接收器API：
- KafkaReceiver：直接接收Kafka数据，进程异常后，可能出现数据丢失。
- ReliableKafkaReceiver：通过ZooKeeper记录接收数据位移。
- DirectKafka：直接通过RDD读取Kafka每个Partition中的数据，数据高可靠。
从实现上来看，DirectKafka的性能会是最好的，实际测试上来看，DirectKafka也确实比其他两个API性能好了不少。因此推荐使用DirectKafka的API实现接收器。数据接收器作为一个Kafka的消费者，对于它的配置优化，请参见Kafka开源文档：http://kafka.apache.org/documentation.html
处理器调优 Streaming的底层由Spark执行，因此大部分对于Spark的调优措施，都可以应用在Streaming之中，例如：
- 数据序列化
- 配置内存
- 设置并行度
- 使用External Shuffle Service提升性能
说明：在做Spark Streaming的性能优化时需注意一点，越追求性能上的优化，Streaming整体的可靠性会越差。例如： “spark.streaming.receiver.writeAheadLog.enable”配置为“false”的时候，会明显减少磁盘的操作，提高性能，但由于缺少WAL机制，会出现异常恢复时，数据丢失。因此，在调优Streaming的时候，这些保证数据可靠性的配置项，在生产环境中是不能关闭的。
日志归档调优 参数“spark.eventLog.group.size”用来设置一个应用的JobHistory日志按照指定job个数分组，每个分组会单独创建一个文件记录日志，从而避免应用长期运行时形成单个过大日志造成JobHistory无法读取的问题，设置为“0”时表示不分组。大部分Spark Streaming任务属于小型job，而且产生速度较快，会导致频繁的分组，产生大量日志小文件消耗磁盘I/O。建议增大此值，例如改为“1000”或更大值。

作者 east

Spark 10月 26,2020

Spark Core调优经验

使用mapPartitions，按每个分区计算结果

如果每条记录的开销太大，例：

rdd.map{x=>conn=getDBConn;conn.write(x.toString);conn.close}

则可以使用MapPartitions，按每个分区计算结果，如

rdd.mapPartitions(records => conn.getDBConn;for(item <- records)
write(item.toString); conn.close)

使用mapPartitions可以更灵活地操作数据，例如对一个很大的数据求TopN，当N不是很大时，可以先使用mapPartitions对每个partition求TopN，collect结果到本地之后再做排序取TopN。这样相比直接对全量数据做排序取TopN效率要高很多。

使用coalesce调整分片的数量

coalesce可以调整分片的数量。coalesce函数有两个参数：

coalesce(numPartitions: Int, shuffle: Boolean = false)

当shuffle为true的时候，函数作用与repartition(numPartitions: Int)相同，会将数据通过Shuffle的方式重新分区；当shuffle为false的时候，则只是简单的将父RDD的多个partition合并到同一个task进行计算，shuffle为false时，如果numPartitions大于父RDD的切片数，那么分区不会重新调整。

遇到下列场景，可选择使用coalesce算子：

当之前的操作有很多filter时，使用coalesce减少空运行的任务数量。此时使用coalesce(numPartitions, false)，numPartitions小于父RDD切片数。
当输入切片个数太大，导致程序无法正常运行时使用。
当任务数过大时候Shuffle压力太大导致程序挂住不动，或者出现linux资源受限的问题。此时需要对数据重新进行分区，使用coalesce(numPartitions, true)。

localDir配置

Spark的Shuffle过程需要写本地磁盘，Shuffle是Spark性能的瓶颈，I/O是Shuffle的瓶颈。配置多个磁盘则可以并行的把数据写入磁盘。如果节点中挂载多个磁盘，则在每个磁盘配置一个Spark的localDir，这将有效分散Shuffle文件的存放，提高磁盘I/O的效率。如果只有一个磁盘，配置了多个目录，性能提升效果不明显。

Collect小数据

大数据量不适用collect操作。

collect操作会将Executor的数据发送到Driver端，因此使用collect前需要确保Driver端内存足够，以免Driver进程发生OutOfMemory异常。当不确定数据量大小时，可使用saveAsTextFile等操作把数据写入HDFS中。只有在能够大致确定数据大小且driver内存充足的时候，才能使用collect。

使用reduceByKey

reduceByKey会在Map端做本地聚合，使得Shuffle过程更加平缓，而groupByKey等Shuffle操作不会在Map端做聚合。因此能使用reduceByKey的地方尽量使用该算子，避免出现groupByKey().map(x=>(x._1,x._2.size))这类实现方式。

广播map代替数组

当每条记录需要查表，如果是Driver端用广播方式传递的数据，数据结构优先采用set/map而不是Iterator，因为Set/Map的查询速率接近O(1)，而Iterator是O(n)。

数据倾斜

当数据发生倾斜（某一部分数据量特别大），虽然没有GC（Gabage Collection，垃圾回收），但是task执行时间严重不一致。

需要重新设计key，以更小粒度的key使得task大小合理化。
修改并行度。

优化数据结构

把数据按列存放，读取数据时就可以只扫描需要的列。
使用Hash Shuffle时，通过设置spark.shuffle.consolidateFiles为true，来合并shuffle中间文件，减少shuffle文件的数量，减少文件IO操作以提升性能。最终文件数为reduce tasks数目。

作者 east

Kafka, Spark 9月 5,2020

大数据利用基站或GPS推断是家和工作地

如果有某个手机用户的GPS轨迹或基站，是可以利用大数据来推断他的家和工作地。

思路应该从时空2个维度进行考虑：

1、从时间上考虑：对于一般人来说，一天最早的出发地通常是家，晚上最后的目的地通常是家。而上班的地方，普通是6-10点出发的，在17点到22点后回来的，工作地通常是停留时间很长。（可以把轨迹按天归类，并按每天时间排序，从而计算最早、最晚、白天停留时间最长的地点）

2、从空间上考虑：家和工作点应该是2个不同的聚类中心。可以利用轨迹绘制集群中每个集群中GPS或基站数据点的时间分布。应该可以推断出从早上9点到晚上18点，用户停留在集群1区域，而在午夜到早上8点，用户倾向于留在集群2。从而大概率推断出集群1是家，集群2是工作地（可以用 DBSCAN算法来识别此数据集中的聚类。 DBSCAN是一种聚类算法，对于聚类具有许多异常值的空间数据特别有用）

作者 east

Spark 7月 7,2019

idea开发spark配置问题

问题1：scala版本跟spark版本不一致

使用maven方式，注意切注意spark与scala有版本对应关系，详情参考Spark官网相关说明：https://spark.apache.org/docs/latest/index.html
scala版本还要跟工程配置Library添加的Scala版本一致。

问题2：更新依赖等半天没更新完

在pom.xml中添加maven 依赖包时，我就发现不管是否用了翻墙，下载速度都好慢，就1M的东西能下半天，很是苦恼，于是到网上搜资料，然后让我查到了。说是使用阿里的maven镜像就可以了。我于是亲自试了下，速度快的飞起！！！
右键项目选中maven选项，然后选择“open settings.xml”或者 “create settings.xml”，然后把如下代码粘贴进去就可以了。重启IDE，感受速度飞起来的感觉吧！！！
<?xml version=”1.0″ encoding=”UTF-8″?><settings xmlns=”http://maven.apache.org/SETTINGS/1.0.0″ xmlns:xsi=”http://www.w3.org/2001/XMLSchema-instance” xsi:schemaLocation=”http://maven.apache.org/SETTINGS/1.0.0 http://maven.apache.org/xsd/settings-1.0.0.xsd”> <mirrors> <!– mirror | Specifies a repository mirror site to use instead of a given repository. The repository that | this mirror serves has an ID that matches the mirrorOf element of this mirror. IDs are used | for inheritance and direct lookup purposes, and must be unique across the set of mirrors. | <mirror> <id>mirrorId</id> <mirrorOf>repositoryId</mirrorOf> <name>Human Readable Name for this Mirror.</name> <url>http://my.repository.com/repo/path</url> </mirror> –>
<mirror> <id>alimaven</id> <name>aliyun maven</name> <url>http://maven.aliyun.com/nexus/content/groups/public/</url> <mirrorOf>central</mirrorOf> </mirror>
<mirror> <id>uk</id> <mirrorOf>central</mirrorOf> <name>Human Readable Name for this Mirror.</name> <url>http://uk.maven.org/maven2/</url> </mirror>
<mirror> <id>CN</id> <name>OSChina Central</name> <url>http://maven.oschina.net/content/groups/public/</url> <mirrorOf>central</mirrorOf> </mirror>
<mirror> <id>nexus</id> <name>internal nexus repository</name> <!– <url>http://192.168.1.100:8081/nexus/content/groups/public/</url>–> <url>http://repo.maven.apache.org/maven2</url> <mirrorOf>central</mirrorOf> </mirror>
</mirrors></settings>

作者 east

Spark 5月 7,2019

解决Spark读取CSV文件中文乱码的完整例子

park.read.option(“header”,”true”).csv(path) 的默认方法，如果读取的源数据是utf-8k中文的，能正常显示，但如果Spark读取带有GBK或GB2312等中文编码的话，就会有Spark GBK乱码或Spark GB2312乱码。下面示例一个完整例子，如果Spark读取不是GBK编码的，只需要替换下面的中文编码。

import java.sql.DriverManager

import org.apache.hadoop.fs.Path
import org.apache.hadoop.io.{LongWritable, Text}
import org.apache.hadoop.mapred.TextInputFormat
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.types.{StructField, StructType, _}

import scala.collection.mutable.ArrayBuffer

/**
* 通过友盟统计1天访问明细
*/
object UmengRangfeiSQL {
def main(arg: Array[String]): Unit = {
val spark = SparkSession.builder().appName(“UmengRangfeiSQL”).master(“local[*]”).getOrCreate(); //为读取的数据创建schema
// println(System.getProperty(“file.encoding”))
// val pps = System.getProperties
// pps.setProperty(“file.encoding”, “GB2312”)
val taxiSchema = StructType(Array(
StructField(“PageUrl”, StringType, true),
StructField(“PV”, IntegerType, true),
StructField(“UV”, IntegerType, true),
StructField(“IP”, IntegerType, true),
StructField(“PageViews”, DoubleType, true),
StructField(“Output PV”, IntegerType, true),
StructField(“Stay Time”, StringType, true)
))
val path = “E:\\newcode\\MyFirstProject\\data\\rangfei”
//跳过第一行的标题 .option(“header”,”true”)
// val data = spark.read.option(“header”,”true”).schema(taxiSchema).csv(path)

val mySchema = new ArrayBuffer[String]();
mySchema.append(“PageUrl”);
mySchema.append(“PV”);
mySchema.append(“UV”);
mySchema.append(“IP”);
mySchema.append(“PageViews”);
mySchema.append(“Output PV”);
mySchema.append(“Stay Time”);

val data = readCSV(spark, “TRUE”, mySchema,”GBK”, path)
data.show()

data.createTempView(“umng_rangfei”)
val df = data.toDF()

df.persist()

//按受欢迎的分类倒序排列
val resultRdd = df.sqlContext.sql(“select * from umng_rangfei order by PageViews DESC”)
resultRdd.show()

//过虑查找深度好文
val haowenRdd = df.sqlContext.sql(“select * from umng_rangfei WHERE PageUrl LIKE ‘%haowen%’ AND PV > 100 order by PageUrl DESC”)
haowenRdd.show()

spark.sparkContext.hadoopConfiguration.setBoolean(“mapreduce.input.fileinputformat.input.dir.recursive”, true)
deleteOutPutPath(spark.sparkContext,”E:\\newcode\\MyFirstProject\\data\\output\\haowen”)

//加上repartition来控制只有1个输出文件
haowenRdd.repartition(1).write.format(“com.databricks.spark.csv”).save(“E:\\newcode\\MyFirstProject\\data\\output\\haowen”)

val womanRdd = df.sqlContext.sql(“select * from umng_rangfei WHERE PageUrl LIKE ‘%/woman/?p=%’ AND PV > 100 order by PageUrl DESC”)
womanRdd.show()

deleteOutPutPath(spark.sparkContext,”E:\\newcode\\MyFirstProject\\data\\output\\woman”)

//加上repartition来控制只有1个输出文件
womanRdd.repartition(1).write.format(“com.databricks.spark.csv”).save(“E:\\newcode\\MyFirstProject\\data\\output\\woman”)

}

/**
* 删除文件夹或文件
* @param sc
* @param outputPath
*/
def deleteOutPutPath(sc: SparkContext,outputPath: String):Unit={
val path = new Path(outputPath)
val hadoopConf = sc.hadoopConfiguration
val hdfs = org.apache.hadoop.fs.FileSystem.get(hadoopConf)
if(hdfs.exists(path)){
hdfs.delete(path,true)
}
}

def readCSV(spark:SparkSession,headerSchema:String,mySchema: ArrayBuffer[String],code:String,file:String) ={
val rddArr:RDD[Array[String]] = spark.sparkContext.hadoopFile(file, classOf[TextInputFormat],
classOf[LongWritable], classOf[Text]).map(
pair => new String(pair._2.getBytes, 0, pair._2.getLength, code))
//处理同一个单元格同时出现引号逗号串列问题切割
.map(_.trim.split(“,(?=([^\”]*\”[^\”]*\”)*[^\”]*$)”,-1))
val fieldArr = rddArr.first()
//Row.fromSeq(_) 如果只是 map(Row(_)),会导致 spark.createDataFrame(rddRow,schema)错误
val rddRow = rddArr.filter(!_.reduce(_+_).equals(fieldArr.reduce(_+_))).map(Row.fromSeq(_))
val schemaList = ArrayBuffer[StructField]()
if(“TRUE”.equals(headerSchema)){
for(i <- 0 until fieldArr.length){
println(“fieldArr(i)=” + fieldArr(i))
schemaList.append(StructField(mySchema(i),DataTypes.StringType))
}
}else{
for(i <- 0 until fieldArr.length){
schemaList.append(StructField(s”_c$i”,DataTypes.StringType))
println(“fieldArr(i)=” + fieldArr(i))
}
}
val schema = StructType(schemaList)
spark.createDataFrame(rddRow,schema)
}

}

作者 east

Spark 5月 7,2019

解决Spark读取文本中文乱码的完整例子

spark.read.textFile() 的默认方法，如果读取的源数据是utf-8k中文的，能正常显示，但如果带有GBK或GB2312等中文编码的话，就会有乱码。下面示例一个完整例子，如果不是GBK编码的，只需要替换下面的中文编码。



//导入隐饰操作，否则RDD无法调用toDF方法


object ExcelStockEarn extends AppConf {

  def main(args: Array[String]): Unit = {
    readExcel;
  }

  def readExcel   = {


    import spark.implicits._


    import org.apache.hadoop.io.{LongWritable, Text}
    import org.apache.hadoop.mapred.TextInputFormat
    val path = "E:\\newcode\\MyFirstProject\\data\\stockearn"
    val inputRdd = spark.sparkContext.hadoopFile(path, classOf[TextInputFormat],
      classOf[LongWritable], classOf[Text]).map(
      pair => new String(pair._2.getBytes, 0, pair._2.getLength, "GBK"))


        //我们要统计脏数据的数量，所以我在这里定义了一个计数器
        val accum = spark.sparkContext.longAccumulator("Error Accum")

        val listRdd =inputRdd
          .map({
            line =>
              val fields = line.split("\\s+")
              if(fields.length == 14) {
                CaseFlow(fields(0).toString, fields(1).toString, fields(2).toString, fields(3).toInt, fields(4).toDouble, fields(5).toString, fields(6).toDouble, fields(7).toDouble,
                  fields(8).toString, fields(9).toString, fields(10).toString, fields(11).toString, fields(12).toString, "")
              }else{
                accum.add(1L)
                CaseFlow(fields(0).toString, "", "", 0, 0, "", 0, 0, "", "", "", "", "", "")
              }

          })
    val  dataRdd = listRdd.filter(_.stockCode.length > 1).toDF()

    dataRdd.createTempView("option_stock")
    val df = dataRdd.toDF()
    df.persist()

    val resultRdd = df.sqlContext.sql("select * from option_stock ")
    resultRdd.show();

    val groupRdd = df.sqlContext.sql("select stockCode, SUM(dealAmount) from option_stock group by StockCode order by StockCode")
    groupRdd.show();

  }




  case class CaseFlow(dealDate : String ,stockCode : String , stockName: String , dealNum : Int , dealPrice : Double, dealContent : String,
                      dealAmount :Double, remainAmount: Double, standby1: String, standby2: String, standby3: String, standby4: String, standby5: String,standby6: String);

}

作者 east

Spark 5月 6,2019

Spark读取文件来统计股票资金流水

数据格式：

操作代码：

import org.apache.hadoop.io.{LongWritable, Text}
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat
import org.apache.spark.sql.types._

import scala.io.Source
//导入隐饰操作，否则RDD无法调用toDF方法


object ExcelStockEarn extends AppConf {

  def main(args: Array[String]): Unit = {
    readExcel;
  }

  def readExcel   = {


    import spark.implicits._
    val path = "E:\\newcode\\MyFirstProject\\data\\stockearn"

        //我们要统计脏数据的数量，所以我在这里定义了一个计数器
        val accum = spark.sparkContext.longAccumulator("Error Accum")

        val listRdd = spark.read.textFile(path).rdd
          .map({
            line =>
              val fields = line.split("\\s+")
              if(fields.length == 14) {
                CaseFlow(fields(0).toString, fields(1).toString, fields(2).toString, fields(3).toInt, fields(4).toDouble, fields(5).toString, fields(6).toDouble, fields(7).toDouble,
                  fields(8).toString, fields(9).toString, fields(10).toString, fields(11).toString, fields(12).toString, "")
              }else{
                accum.add(1L)
                CaseFlow(fields(0).toString, "", "", 0, 0, "", 0, 0, "", "", "", "", "", "")
              }

          }).toDF();


    listRdd.createTempView("option_stock")
    val df = listRdd.toDF()
    df.persist()

    val resultRdd = df.sqlContext.sql("select * from option_stock ")
    resultRdd.show();

    val groupRdd = df.sqlContext.sql("select stockCode, SUM(dealAmount) from option_stock group by StockCode order by StockCode")
    groupRdd.show();

  }


  case class CaseFlow(dealDate : String ,stockCode : String , stockName: String , dealNum : Int , dealPrice : Double, dealContent : String,
                      dealAmount :Double, remainAmount: Double, standby1: String, standby2: String, standby3: String, standby4: String, standby5: String,standby6: String);

}

作者 east

Spark 4月 25,2019

Spark清洗数据实例-评分数据

 
数据清洗， 是大数据分析过程中重要的环节，主要作用是去除不需要的数据，填充缺失内容，确定缺失值的范围并制定好应对策略。


/**
  * 接收用户的评分信息 
  */
case class UserRating(userId:Int, movieId:Int, rating:Double)


import com.zxl.caseclass.{UserRating, Users}
import com.zxl.conf.AppConf
import com.zxl.datacleaner.UserETL._
import org.apache.spark.sql.SaveMode

/** 
  * 数据格式如下
  * 1,1193,5,978300760
  * 1,661,3,978302109
  * 1,914,3,978301968
  * 1,3408,4,978300275
  * 1,2355,5,978824291
  * 1,1197,3,978302268
  * 1,1287,5,978302039
  * 1,2804,5,978300719
  * 1,594,4,978302268
  * 1,919,4,978301368
  * 1,595,5,978824268
  * 1,938,4,978301752
  * 1,2398,4,978302281
  * 1,2918,4,978302124
  * 1,1035,5,978301753
  * 1,2791,4,978302188
  * 1,2687,3,978824268
  * 1,2018,4,978301777
  * 1,3105,5,978301713
  * 1,2797,4,978302039
  */
object RatingETL extends AppConf {

  def main(args: Array[String]) {

    import sqlContext.implicits._

    // 2 读取样本数据
   // val data_path = "hdfs://movie1:9000/movie/data/ratings.txt"
   val data_path = "data/ratings.dat"
    val data = sc.textFile(data_path, 8)
    val userdata = data.map(_.split(",")).map(f => UserRating(f(0).toInt,f(1).toInt,f(2).toDouble)).cache()

    val userDF = userdata.toDF()
    // 存储结果至数据库
    userDF.write.mode(SaveMode.Append).jdbc(jdbcURL, ratingTable, prop)
  }
}

作者 east

Spark 4月 19,2019

Spark分析个股的活跃性

在前文scala获取免费的股票日k线数据，本文做进一步扩展，统计一下股票振幅，统计最近20天振幅大于4个点有多少天。对于炒股喜欢短线的人来说，振幅大的股票，越好做T+0操作。


import java.util
import java.util.Collections

import org.apache.spark.SparkContext
import org.apache.spark.sql.{Encoder, Encoders, SparkSession}
import stock.SinaStock

import scala.io.Source
object KLineAnalyse {
  def main(args: Array[String]): Unit = {
    println("查询日k线股票 http://data.gtimg.cn/flashdata/hushen/daily/19/sh603000.js")
    val sinaStockStream = Source.fromURL("http://data.gtimg.cn/flashdata/hushen/daily/19/sh603000.js","utf-8")
    val sinaLines=sinaStockStream.getLines
    val spark = SparkSession.builder().appName("kline").master("local[*]").getOrCreate(); //为读取的数据创建schema
    //val sc = new SparkContext(SparkUtils.getSparkConf("SequenceFileUsage"))
    val list = new util.ArrayList[KLineModel]()
    for(line <- sinaLines) { /** 将每行数据解析成SinaStock对象，并答应对应的股票信息 **/
      if(line.length > 20) {
       // println(new KLineModel(line).toString)
        list.add(new KLineModel(line));
      }
      }
    Collections.reverse(list);
    import scala.collection.JavaConverters
    import scala.collection.Seq
    import spark.implicits._
    // List 转 Seq
    val tmpSeq = JavaConverters.asScalaIteratorConverter(list.iterator).asScala.toSeq
    sinaStockStream.close()
    val mySparkRdd = spark.sparkContext.parallelize(tmpSeq);
    val top2Rdd = mySparkRdd.take(20)
    val rateRdd = top2Rdd.map(a => (a.dateStr, (a.highPrice - a.lowPrice)/a.openPrice * 100))
    //过滤每天振幅大于几个点的
    val resultRdd = rateRdd.filter(_._2 >= 4)
    println(resultRdd.toBuffer)
    val wordPairs = resultRdd.map(word => (word, 1))
    val wordCounts = wordPairs.length / 20.0f;
    println("wordCounts: " + wordCounts)

    }

}

作者 east

分类归档Spark