行而学之


罗学焕

Spark性能调优之——在实际项目中使用kryo序列化

一、Java的序列化机制 ObjectOutputStream/ObjectInputStream 对象输入输入流机制,来进行序列化。 这种默认序列化机制,的好处在于,处理方便,不需要手动做什么事,只要在算子里面使用的变量,实现Serializable接口的,可序列化即可。 但是缺点在...

Hadoop maven项目报错:missing artifact jdk.tools Jdk.tools Jar 1.6

错误: pom.xml报错:Missing artifact jdk.tools:jdk.tools:jar:1.6 解决: 添加: <dependency> <groupId>jdk.tools</groupId> &l...

Hdfs文件操作filesystem使用api报错:copytolocalfile nullpointerexception

出错: Exception in thread "main" java.lang.NullPointerException at java.lang.ProcessBuilder.start(Unknown Source) at org.apache.hadoop.util.Shell....

Spark性能调优之——在实际项目中分配更多的资源

分配更多资源: 性能调优的王道,就是增加和分配更多的资源,性能和速度上提升,是显而易见的,基本上,在一定范围内,增加资源与性能的提升,是成正比的, 写完一个复杂的spark作业之后,进行性能调优的时候 首先第一步,我决定就是要来调节最优的资源配置,在这个基础之上,如果说你的spark作业,...

Spark大数据常见错误分享总结(来自苏宁)

使用案例 机器学习 1.商品特征未读降维 :SVD 、PCA 2.商品挂错页面检查:TF-IDF、SVM、Logistic - -Regression 3.相关推荐算法模型训练:Loginistic Regression、kmeans、SVM 4.商品爆品预测 :Logini...

Spark 之dataframe与rdd 转换

DataFrame可以从结构化文件、hive表、外部数据库以及现有的RDD加载构建得到。具体的结构化文件、hive表、外部数据库的相关加载可以参考其他章节。这里主要针对从现有的RDD来构建DataFrame进行实践与解析。 Spark SQL 支持两种方式将存在的RDD转化为DataFram...

Spark二次排序学习总结

1. 二次排序 Spark二次排序,即组装一个新的key并在这个key里实现排序接口所定义的方法。 例如一组数据:(点击次数,下单次数,支付次数) A:(30,35,40) B:(35,35,40) C:(30,38,40) D:(35,35,45) 需要分别对点击次数,下单次数,支付次数...

Spark自定义累加器的使用

1.为什么要使用自定义累加器 前文讲解过spark累加器的简单使用:http://blog.csdn.net/lxhandlbb/article/details/51931713 但是若业务较为复杂,需要使用多个广播变量时,就会使得程序变得非常复杂,不便于扩展维护,因此可以考虑自定义累加器。...