分类
正在加载今日诗词...
MapReduce的流程及优化 MapReduce的流程及优化
MapReduce的流程相对来说比较复杂,这里借用尚硅谷的两张图来描述其流程. 上面两张图对MapReduce有比较详细的描述,通过这个图我们就能够发现一些MapReduce的优化方法. 数据输入小文件处理HDFS小文件会因为文件元数据存
2020-07-06
MapReduce中的两表join方案 MapReduce中的两表join方案
MapReduce中两表join方案概述随着互联网行业的发展,数据量变得越来越大,随之而来的就是hadoop生态圈的兴起,其中MapReduce作为较原始的分布式计算框架,在当时也是解决了很多分布式计算的问题,其中包括两张表的join操作,
2020-07-05
HBase建立二级索引的几种方式 HBase建立二级索引的几种方式
为什么需要HBse二级索引HBase里面只有rowkey作为一级索引, 如果要对库里的非rowkey字段进行数据检索和查询, 往往要通过MapReduce/Spark等分布式计算框架进行,硬件资源消耗和时间延迟都会比较高。 只依赖rowke
2020-01-16
Sqoop-HDFS与外界交互数据的工具 Sqoop-HDFS与外界交互数据的工具
Sqoop简介Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导
2020-01-16
Flume-大数据采集工具 Flume-大数据采集工具
概述Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 Flume组成架构Flume组成架构如图所示: AgentAgent是一个JVM进程
2020-01-16
流式处理框架后起之秀Flink 流式处理框架后起之秀Flink
Flink简介初识FlinkApache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。 Flink起源于Stratosphe
2020-01-16
真正意义的流式处理框架Strom 真正意义的流式处理框架Strom
Storm基础入门 Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架,具有最高的摄取率。 Storm的核心组件 Nimbus:即Storm的Master,负
2020-01-16
Spark到底好在哪里? Spark到底好在哪里?
Spark简介Apache Spark 是当今最流行的开源大数据处理框架。和人们耳熟能详的 MapReduce 一样,Spark 用于进行分布式、大规模的数据处理,但 Spark 作为 MapReduce 的接任者,提供了更高级的编程接口、
2020-01-16
Hive-基于MapReduce的数据分析工具 Hive-基于MapReduce的数据分析工具
Hive概述Hive 的底层执行引擎有 :MapReduce,Tez,Spark- Hive on MapReduce- Hive on Tez- Hive on spark 压缩:GZIP,LZO,Snappy,Bzip2…存储:Text
2020-01-16
Kafka-大数据的标准数据源 Kafka-大数据的标准数据源
基本概念 消息队列中的基本概念尤为重要,当对基本概念有了深入的理解之后,消息队列的原理以及常见的问题都将更浅显明了。 Broker:一个单独的Kafka server就是一个Broker,Broker的主要工作就是接收生产者发送来的消息
2020-01-16
HBase的rowkey设计的理解 HBase的rowkey设计的理解
HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。 HBase中rowkey可以唯一标
2020-01-16
Hadoop之HDFS上传文件源码分析 Hadoop之HDFS上传文件源码分析
概述hdfs中每个block默认情况下是128M,由于每个块比较大,所以在写数据的过程中是把数据块拆分成一个个的数据包以管道的形式发送的,所以hdfs文件的写入会涉及到客户端、namenode、datanode多个模块的交互。 操作代码Co
2020-01-16
1 / 2