归档: 2020/1 | 卢海的博客

2020

01

16

Sqoop-HDFS与外界交互数据的工具

Sqoop简介Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导

2020-01-16 大数据

16

Flume-大数据采集工具

概述Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。 Flume组成架构Flume组成架构如图所示： AgentAgent是一个JVM进程

2020-01-16 大数据

16

流式处理框架后起之秀Flink

Flink简介初识FlinkApache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行，以内存执行速度和任意规模来执行计算。 Flink起源于Stratosphe

2020-01-16 大数据

16

真正意义的流式处理框架Strom

Storm基础入门 Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架，具有最高的摄取率。 Storm的核心组件 Nimbus：即Storm的Master，负

2020-01-16 大数据

16

Spark到底好在哪里?

Spark简介Apache Spark 是当今最流行的开源大数据处理框架。和人们耳熟能详的 MapReduce 一样，Spark 用于进行分布式、大规模的数据处理，但 Spark 作为 MapReduce 的接任者，提供了更高级的编程接口、

2020-01-16 大数据

16

Hive-基于MapReduce的数据分析工具

Hive概述Hive 的底层执行引擎有：MapReduce，Tez，Spark- Hive on MapReduce- Hive on Tez- Hive on spark 压缩：GZIP,LZO,Snappy,Bzip2…存储：Text

2020-01-16 大数据

16

Kafka-大数据的标准数据源

基本概念消息队列中的基本概念尤为重要,当对基本概念有了深入的理解之后,消息队列的原理以及常见的问题都将更浅显明了。 Broker:一个单独的Kafka server就是一个Broker,Broker的主要工作就是接收生产者发送来的消息

2020-01-16 大数据

16

HBase的rowkey设计的理解

HBase是三维有序存储的，通过rowkey（行键），column key（column family和qualifier）和TimeStamp（时间戳）这个三个维度可以对HBase中的数据进行快速定位。 HBase中rowkey可以唯一标

2020-01-16 大数据

16

Hadoop之HDFS上传文件源码分析

概述hdfs中每个block默认情况下是128M，由于每个块比较大，所以在写数据的过程中是把数据块拆分成一个个的数据包以管道的形式发送的，所以hdfs文件的写入会涉及到客户端、namenode、datanode多个模块的交互。操作代码Co

2020-01-16 大数据

15

多线程之缓存与主存一致性

一、总线锁定和缓存一致性基本概念这是两个操作系统层面的概念。随着多核时代的到来，并发操作已经成了很正常的现象，操作系统必须要有一些机制和原语，以保证某些基本操作的原子性，比如处理器需要保证读一个字节或写一个字节是原子的，那么它是如何实现的呢

2020-01-15 java

14

Netty原理

对于高性能的 RPC 框架，Netty 作为异步通信框架，几乎成为必备品。例如，Dubbo 框架中通信组件，还有 RocketMQ 中生产者和消费者的通信，都使用了 Netty。今天，我们来看看 Netty 的基本架构和原理。 Netty

2020-01-14 tool

13

java的Object对象

一.Object对象简介我们学Java的知道，Java是一门面向对象的语言。无论在Java中出现什么，都可以认为它是对象(除了八大基本数据类型。当然了，八大基本数据类型也能装箱成为对象)：而Object就是这些对象的最高级别的，所有的J

2020-01-13 java