行而学之


罗学焕

Kafka和zookeeper操作指南

集群配置: --zookeeper master106:2181,node110:2181,node210:2181 --kafka node81:9092,node110:9092 二、Kafka操作: 0.启动Kafka kafka-server-start.sh ../con...

Spark streaming 运行原理图解分析

点击查看高清大图 streaming源码图解分析

Spark性能调优之——在实际项目中,使用fastutil优化数据格式

一、fastutil介绍: fastutil是扩展了Java标准集合框架(Map、List、Set;HashMap、ArrayList、HashSet)的类库,提供了特殊类型的map、set、list和queue; fastutil能够提供更小的内存占用,更快的存取速度;我们使用fastu...

Spark性能调优之——在实际项目中重构rdd架构以及rdd持久化

一、RDD架构重构与优化是什么。 尽量去复用RDD,差不多的RDD,可以抽取为一个共同的RDD,供后面的RDD计算时,反复使用。 二、怎么做? 缓存级别: case "NONE" => NONE case "DISK_ONLY" => DISK_ONLY ...

spark性能调优-数据本地化等待时长

一、进程本地化级别 1.PROCESS_LOCAL:进程本地化, 代码和数据在同一个进程中,也就是在同一个executor中;计算数据的task由executor执行,数据在executor的BlockManager中;性能最好. 2.NODE_LOCAL:节点本地化 代码和数...

Jvm调优executor堆外内存和 连接时长

/usr/local/spark/bin/spark-submit \ --class com.hulb.sparkstudy.WordCount \ --num-executors 80 \ --driver-memory 6g \ --executor-memory 6g \ (80*6...

最近经历的一些大数据面试题

公司A: 1.讲讲你做的过的项目。 项目里有哪些 难点重点注意点呢? 2.讲讲多线程吧, 要是你,你怎么实现一个线程池呢? 3.讲一下Mapreduce或者hdfs的原理和机制。map读取数据分片。 4.shuffl...

Spark性能调优之——在实际项目中广播大变量

Spark性能调优之——在实际项目中广播大变量 [数澜 Spark]性能调优系列,返回目录请猛戳这里 「数澜·大数据」技术团队荣誉出品 本文目录: 一、为什么要用广播变量? [TOC] 一、为什么要用广播变量 1.一个Spark Application Driver进程 其...