MapReduce基础学习-五 发表于 2019-10-17 OutputFormat数据输出OutputFormat接口实现类 自定义OutputFormat 自定义OutputFormat案例实操需求过滤输入的log日志,包含atguigu的网站输出到e:/atguigu.log,不包含atguigu的网站输出到e:/other.log 输入数据 12 ... 阅读全文 »
MapReduce基础学习-三 发表于 2019-10-14 MapReduce框架原理InputFormat数据输入切片与MapTask并行度决定机制 问题引出 MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。 思考:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数据,也启动8个MapTas ... 阅读全文 »
MapReduce基础学习-四 发表于 2019-10-13 Shuffle机制Shuffle机制机制Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。 Partition分区 分区源码分析 Partition分区案例实操需求将统计结果按照手机归属地不同省份输出到不同文件中(分区) 输入数据 12345678910111213141 ... 阅读全文 »
MapReduce基础学习-二 发表于 2019-09-23 Hadoop序列化序列化概述 自定义bean对象实现序列化接口(Writable)在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象,那么该对象就需要实现序列化接口。具体实现bean对象序列化步骤如下7步。 必须实现Writable接口 反序列化时 ... 阅读全文 »
MapReduce基础学习-一 发表于 2019-09-22 MapReduce概述MapReduce定义 MapReduce优缺点优点 缺点 MapReduce核心思想 1)分布式的运算程序往往需要分成至少2个阶段。 2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。 3)第二个阶段的ReduceTask并发实例互不相干,但是他们的数据依赖于 ... 阅读全文 »
HDFS基础学习-五 发表于 2019-09-20 DataNodeDataNode工作机制 1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信 ... 阅读全文 »
HDFS基础学习-四 发表于 2019-09-19 NameNode和SecondaryNameNodeNN和2NN工作机制思考:NameNode中的元数据是存储在哪里的? 首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电 ... 阅读全文 »
HDFS基础学习-三 发表于 2019-09-19 HDFS的数据流HDFS写数据流程剖析文件写入 1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 2)NameNode返回是否可以上传。 3)客户端请求第一个 Block上传到哪几个DataNod ... 阅读全文 »
一.宜立方商城——校园易商城搭建和介绍 发表于 2019-07-05 一.易商城计划:二.宜立方商城架构 2.1 功能列表 123456后台管理系统:管理商品、订单、类目、商品规格属性、用户管理以及内容发布等功能。前台系统:用户可以在前台系统中进行注册、登录、浏览商品、首页、下单等操作。会员系统:用户可以在该系统中查询已下的订单、收藏的商 ... 阅读全文 »
LeetCode-48:旋转图像 发表于 2019-07-05 本题为LeetCode中的第48道题,今天咱们就来看看这道题,再顺便提一下Java中数组的深浅拷贝 这道题是我没做出来,偷懒开辟了其他数组,不过还给过了,就在这贴上吧 给定一个 n × n 的二维矩阵表示一个图像。将图像顺时针旋转 90 度。 说明:你必须在原地旋转图像,这意味着你需要直接 ... 阅读全文 »