MapReduce基础学习-五

发表于 2019-10-17

OutputFormat数据输出OutputFormat接口实现类自定义OutputFormat 自定义OutputFormat案例实操需求过滤输入的log日志，包含atguigu的网站输出到e:/atguigu.log，不包含atguigu的网站输出到e:/other.log 输入数据 12 ...

阅读全文 »

MapReduce基础学习-三

发表于 2019-10-14

MapReduce框架原理InputFormat数据输入切片与MapTask并行度决定机制问题引出 MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。思考：1G的数据，启动8个MapTask，可以提高集群的并发处理能力。那么1K的数据，也启动8个MapTas ...

阅读全文 »

MapReduce基础学习-四

发表于 2019-10-13

Shuffle机制Shuffle机制机制Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle。 Partition分区分区源码分析 Partition分区案例实操需求将统计结果按照手机归属地不同省份输出到不同文件中（分区）输入数据 12345678910111213141 ...

阅读全文 »

MapReduce基础学习-二

发表于 2019-09-23

Hadoop序列化序列化概述自定义bean对象实现序列化接口（Writable）在企业开发中往往常用的基本序列化类型不能满足所有需求，比如在Hadoop框架内部传递一个bean对象，那么该对象就需要实现序列化接口。具体实现bean对象序列化步骤如下7步。必须实现Writable接口反序列化时 ...

阅读全文 »

MapReduce基础学习-一

发表于 2019-09-22

MapReduce概述MapReduce定义 MapReduce优缺点优点缺点 MapReduce核心思想 1）分布式的运算程序往往需要分成至少2个阶段。 2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。 3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于 ...

阅读全文 »

HDFS基础学习-五

发表于 2019-09-20

DataNodeDataNode工作机制 1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。 2）DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信 ...

阅读全文 »

HDFS基础学习-四

发表于 2019-09-19

NameNode和SecondaryNameNodeNN和2NN工作机制思考：NameNode中的元数据是存储在哪里的？首先，我们做个假设，如果存储在NameNode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电 ...

阅读全文 »

HDFS基础学习-三

发表于 2019-09-19

HDFS的数据流HDFS写数据流程剖析文件写入 1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。 2）NameNode返回是否可以上传。 3）客户端请求第一个 Block上传到哪几个DataNod ...

阅读全文 »