Elasticsearch基础学习二 发表于 2021-01-03 [toc] 三、Elasticsearch入门1. Elasticsearch基本概念1.1 文档 Elasticsearch是面向文档的,文档是所有可搜索数据的最小单位 日志文件中的日志项 一本电影的具体信息/一张唱片的详细信息 MP3播放器里的一首歌/一篇PDF文档中的具体内容 文档会被序列 ... 阅读全文 »
Elasticsearch基础学习一 发表于 2021-01-03 [toc] 二、安装上手1. Elasticsearch的安装和简单配置 Elasticsearch非常容易在个人电脑上搭建环境 下载Elasticsearch安装包https://elasticsearch.cn/download/ Elasticsearch还有官方的Docker镜像,我们可以在 ... 阅读全文 »
Sqoop基础学习 发表于 2020-02-24 Sqoop简介Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关 ... 阅读全文 »
HBase基础学习-三之HBaseAPI操作、MapReduce操作 发表于 2020-02-22 HBase API操作环境准备新建项目后在pom.xml中添加依赖1234567891011<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server& ... 阅读全文 »
HBase基础学习-二之hbase数据结构、原理 发表于 2020-02-17 HBase数据结构RowKey与nosql数据库们一样,RowKey是用来检索记录的主键。访问HBASE table中的行,只有三种方式: 通过单个RowKey访问(get) 通过RowKey的range(正则)(like) 全表扫描(scan) RowKey行键 (RowKey)可以是任意字符 ... 阅读全文 »
HBase基础学习-一之简介、安装、shell操作 发表于 2020-02-12 HBase简介什么是HBaseHBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模 ... 阅读全文 »
kafka基础学习-三之kafkaAPI、flume对接kafka、kafka监控 发表于 2020-02-08 Kafka APIProducer API消息发送流程Kafka的Producer发送消息采用的是异步发送的方式。在消息发送的过程中,涉及到了两个线程——main线程和Sender线程,以及一个线程共享变量——RecordAccumulator。main线程将消息发送给RecordAccumulat ... 阅读全文 »
kafka基础学习-二之架构深入 发表于 2020-02-05 kafka架构深入kafka工作流程及文件存储机制 Kafka中消息是以topic进行分类的,生产者生产消息,消费者消费消息,都是面向topic的。 topic是逻辑上的概念,而partition是物理上的概念,每个partition对应于一个log文件,该log文件中存储的就是producer生产 ... 阅读全文 »
kafka基础学习-一之概述与入门 发表于 2020-02-02 Kafka概述定义Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。 消息队列(Message Queue)传统消息队列的应用场景 消息队列的两种模式点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除)消息生产者生产消息发送到Queue中,然后消息消费者从Q ... 阅读全文 »
Flume基础学习-三之监控、自定义Source、Sink 发表于 2020-01-13 Flume监控之GangliaGanglia的安装与部署 安装httpd服务与php 1[rickyin@hadoop102 flume]$ sudo yum -y install httpd php 安装其他依赖 12[rickyin@hadoop102 flume]$ sudo yum -y ... 阅读全文 »