行而学之


罗学焕

Spark广播和累加器的使用

一、广播变量和累加器 1.1 广播变量: 广播变量允许程序员将一个只读的变量缓存在每台机器上,而不用在任务之间传递变量。广播变量可被用于有效地给每个节点一个大输入数据集的副本。Spark还尝试使用高效地广播算法来分发变量,进而减少通信的开销。 Spark的动作通过一系列的步骤执行,这些...

Spark事务处理

一、什么是事务: 1.1 情形描述: task处理到一半,失败了。可是数据 已经在输出存储在数据库了。如果第二次继续重试task,数据是不是就重复输出了? Spark Streaming 的任务失败,讲会自动进行重试, 数据会被多次写入到存储程序中。 1.2 事务的要求: 1.能够处理...

不重启tomcat服务器实现web工程“热部署”

遇到的问题 最近做项目时,碰到一些情况,需要修改一小部分代码。而tomcat每次修改完代码都要重启才能生效。浪费了时间。 在网上看到一些方法,都要改配置文件啊,或者加 JavaRebel插件啊才能实现热部署,比较麻烦。 这里有个简单的小方法,实现不用重启tomcat服务器,修改方法里的内容...

Jedis(java操作redis)入门学习总结

##Redis介绍: redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set –有序集合)和hash(哈希类型)。这些数据类型都支持push/pop...

Spark rdd的理解

1.RDD是什么? RDD(Resilient Distributed Datasets) ,弹性分布式数据集, 是分布式内存的一个抽象概念,指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。 RDD提供了一种高度受限的共享内存模型,即RD...

基于注解的spring定时任务简单实现

##1.在Spring中配置 <!-- 定时器开关 开始 --> <task:annotation-driven /> ##2.编写类: import org.springframework.context.annotation.Lazy; import ...

配置scala环境出现:找不到或无法加载主类 scala.tools.nsc.maingenericrunner

出错情况: 在cmd中运行scala提示错误:找不到或无法加载主类 scala.tools.nsc.MainGenericRunner 出错原因: scala是直接拷贝的其他电脑上的scala,放在Program File文件夹里。scala安装目录出现了空格。 ...

Hashmap源码分析+图解

图解: 原图地址:http://img.blog.csdn.net/20160603144538357 putVal方法 /** * Implements Map.put and related methods * * @param...