Flume基础学习-二之开发案例 发表于 2020-01-13 开发案例监控端口数据官方案例案例需求 首先启动Flume任务,监控本机44444端口,服务端; 然后通过netcat工具向本机44444端口发送消息,客户端; 最后Flume将监听的数据实时显示在控制台。 需求分析 实现步骤 安装netcat工具 1[rickyin@hadoop102 softw ... 阅读全文 »
Flume基础学习-一之概述 发表于 2020-01-11 概述Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 Flume的优点 可以和任意存储进程集成。 输入的的数据速率大于写入目的存储的速率,flume会进行缓冲,减小hdfs的压力。 flume中的事务 ... 阅读全文 »
Hive基础学习-八之压缩和存储 发表于 2019-12-27 压缩和存储Hadoop源码编译支持Snappy压缩资源准备 CentOS联网配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的注意:采用root角色编译,减少文件夹权限出现问题 jar包准备(hadoop源码、JDK8 、maven、protobuf) h ... 阅读全文 »
Hive基础学习-七之函数 发表于 2019-12-27 函数系统内置函数 查看系统自带的函数 1hive> show functions; 显示自带的函数的用法 1hive> desc function upper; 详细显示自带的函数的用法 1hive> desc function extended upper; 自定义函数 ... 阅读全文 »
Hive基础学习-五之联系 发表于 2019-12-27 第一题 准备数据 123456789userId visitDate visitCountu01 2017/1/21 5u02 2017/1/23 6u03 2017/1/22 8u04 2017/1/20 3u01 2017/1/23 6u01 2 ... 阅读全文 »
Hive基础学习-五之查询 发表于 2019-12-27 基本查询全表和特定列查询 全表查询 1hive (default)> select * from emp; 选择特定列查询 1hive (default)> select empno, ename from emp; 注意:(1)SQL 语言大小写不敏感。 (2)SQL 可以写在 ... 阅读全文 »
Hive基础学习-四之DML数据操作 发表于 2019-11-10 数据导入向表中装载数据(Load)语法1hive> load data [local] inpath '/opt/module/datas/student.txt' overwrite|into into table student [partition (partcol1 ... 阅读全文 »
Hive基础学习-三之HIVE基本类型和DDL数据定义 发表于 2019-11-10 Hive数据类型基本数据类型 对于Hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB的字符数。 集合数据类型 Hive有三种复杂数据类型ARRAY、MAP 和 STRUCT。ARRAY和MAP与Java ... 阅读全文 »
Hive基础学习-二之HIVE安装 发表于 2019-11-10 Hive安装地址 Hive官网地址http://hive.apache.org/ 文档查看地址https://cwiki.apache.org/confluence/display/Hive/GettingStarted 下载地址http://archive.apache.org/dist/hive ... 阅读全文 »
Hive基础学习-一之HIVE入门 发表于 2019-11-02 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 Hive处理的数据存储在HDFS Hive分析数据底层的实现 ... 阅读全文 »