行而学之

罗学焕

Spark性能调优之——在实际项目中使用kryo序列化

一、Java的序列化机制 ObjectOutputStream/ObjectInputStream 对象输入输入流机制，来进行序列化。这种默认序列化机制，的好处在于，处理方便，不需要手动做什么事，只要在算子里面使用的变量，实现Serializable接口的，可序列化即可。但是缺点在...

Posted by luoxuehuan on September 22, 2016

Hadoop maven项目报错：missing artifact jdk.tools Jdk.tools Jar 1.6

错误： pom.xml报错：Missing artifact jdk.tools:jdk.tools:jar:1.6 解决：添加： <dependency> <groupId>jdk.tools</groupId> &l...

Posted by luoxuehuan on September 22, 2016

Hdfs文件操作filesystem使用api报错：copytolocalfile nullpointerexception

出错： Exception in thread "main" java.lang.NullPointerException at java.lang.ProcessBuilder.start(Unknown Source) at org.apache.hadoop.util.Shell....

Posted by luoxuehuan on September 22, 2016

Spark性能调优之——在实际项目中分配更多的资源

分配更多资源：性能调优的王道，就是增加和分配更多的资源，性能和速度上提升，是显而易见的，基本上，在一定范围内，增加资源与性能的提升，是成正比的，写完一个复杂的spark作业之后，进行性能调优的时候首先第一步，我决定就是要来调节最优的资源配置，在这个基础之上，如果说你的spark作业，...

Posted by luoxuehuan on August 31, 2016

Spark大数据常见错误分享总结（来自苏宁）

使用案例机器学习 1.商品特征未读降维：SVD 、PCA 2.商品挂错页面检查：TF-IDF、SVM、Logistic - -Regression 3.相关推荐算法模型训练：Loginistic Regression、kmeans、SVM 4.商品爆品预测：Logini...

Posted by luoxuehuan on August 30, 2016

Spark 之dataframe与rdd 转换

DataFrame可以从结构化文件、hive表、外部数据库以及现有的RDD加载构建得到。具体的结构化文件、hive表、外部数据库的相关加载可以参考其他章节。这里主要针对从现有的RDD来构建DataFrame进行实践与解析。 Spark SQL 支持两种方式将存在的RDD转化为DataFram...

Posted by luoxuehuan on August 30, 2016

Spark二次排序学习总结

1. 二次排序 Spark二次排序，即组装一个新的key并在这个key里实现排序接口所定义的方法。例如一组数据：（点击次数，下单次数，支付次数） A:(30,35,40) B:(35,35,40) C:(30,38,40) D:(35,35,45) 需要分别对点击次数，下单次数，支付次数...

Posted by luoxuehuan on August 17, 2016

Spark自定义累加器的使用

1.为什么要使用自定义累加器前文讲解过spark累加器的简单使用：http://blog.csdn.net/lxhandlbb/article/details/51931713 但是若业务较为复杂,需要使用多个广播变量时，就会使得程序变得非常复杂，不便于扩展维护，因此可以考虑自定义累加器。...

Posted by luoxuehuan on August 7, 2016