行而学之

罗学焕

Kafka和zookeeper操作指南

集群配置： --zookeeper master106:2181,node110:2181,node210:2181 --kafka node81:9092,node110:9092 二、Kafka操作： 0.启动Kafka kafka-server-start.sh ../con...

Posted by luoxuehuan on March 21, 2017

Spark streaming 运行原理图解分析

点击查看高清大图 streaming源码图解分析

Posted by luoxuehuan on March 8, 2017

Spark性能调优之——在实际项目中，使用fastutil优化数据格式

一、fastutil介绍： fastutil是扩展了Java标准集合框架（Map、List、Set；HashMap、ArrayList、HashSet）的类库，提供了特殊类型的map、set、list和queue； fastutil能够提供更小的内存占用，更快的存取速度；我们使用fastu...

Posted by luoxuehuan on March 8, 2017

Spark性能调优之——在实际项目中重构rdd架构以及rdd持久化

一、RDD架构重构与优化是什么。尽量去复用RDD，差不多的RDD，可以抽取为一个共同的RDD，供后面的RDD计算时，反复使用。二、怎么做？缓存级别： case "NONE" => NONE case "DISK_ONLY" => DISK_ONLY ...

Posted by luoxuehuan on March 8, 2017

spark性能调优-数据本地化等待时长

一、进程本地化级别 1.PROCESS_LOCAL：进程本地化，代码和数据在同一个进程中，也就是在同一个executor中；计算数据的task由executor执行，数据在executor的BlockManager中；性能最好. 2.NODE_LOCAL：节点本地化代码和数...

Posted by luoxuehuan on March 8, 2017

Jvm调优executor堆外内存和连接时长

/usr/local/spark/bin/spark-submit \ --class com.hulb.sparkstudy.WordCount \ --num-executors 80 \ --driver-memory 6g \ --executor-memory 6g \ （80*6...

Posted by luoxuehuan on March 8, 2017

最近经历的一些大数据面试题

公司A： 1.讲讲你做的过的项目。项目里有哪些难点重点注意点呢？ 2.讲讲多线程吧，要是你，你怎么实现一个线程池呢？ 3.讲一下Mapreduce或者hdfs的原理和机制。map读取数据分片。 4.shuffl...

Posted by luoxuehuan on December 10, 2016

Spark性能调优之——在实际项目中广播大变量

Spark性能调优之——在实际项目中广播大变量 [数澜 Spark]性能调优系列，返回目录请猛戳这里「数澜·大数据」技术团队荣誉出品本文目录：一、为什么要用广播变量？ [TOC] 一、为什么要用广播变量 1.一个Spark Application Driver进程其...

Posted by luoxuehuan on December 10, 2016