
大数据
大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
-
数据仓库建设以及选择
不管什么平台,或者自研,都需要,调度系统,任务上下线,集群监控,任务管理,数据分析界面,血缘关系,数据质量管理平台等等这些
数据源有哪些?业务库,埋点,日志,非关系型数据库,文件,接口等等
有 -
centos 7安装部署elasticsearch 7.5.1
环境准备
centos 7.7 x86_64 操作系统(操作系统安装部分省略)
官网下载 elasticsearch-7.5.1,小编已经把文件放在了云空间,提供下载:
链接:https://pan.baidu.com/s/1n9Dv61edh4V -
ElasticSearch启动报错 ERROR: [4] bootstrap checks failed
ElasticSearch启动报错如下:
ERROR: [4] bootstrap checks failed
[1]: max file descriptors [4096] for elasticsearch process is too low, increase to at least [65535] -
强化spark概念
概念Transformation用来从存在的rdd产生新rdd。rdd图系,成为rdd操作图或者rdd依赖图。是逻辑执行计划,有向无循环图DAG,Transformation是懒惰执行,当执行Action时才被执行。分类
-
导入数据到hive的三种方式
首先我们在hive中要建好一个表,这里用比较难的方式来假设,假设是外部表并且是分区表stg.test,按bus_date(string)分区。方式一:上传数据后修复首先上传数据到HDFS中:hadoop fs -mkd
-
Hive元数据管理
众所周知,hive表中的数据是HDFS上的文件,可是hive怎么知道这些文件的内容都对应哪个字段,对应哪个分区呢?就是hive的元数据管理着这一切。通常在hive-site.xml中的元数据库配置
-
从基础概念了解学习Kafka
Kafka 创建背景Kafka 是一个消息系统,原本开发自 LinkedIn,用作 LinkedIn 的活动流(Activity Stream)和运营数据处理管道(Pipeline)的基础。现在它已被多家不同类型的公司 作
-
浅淡kafka和mq的区别
1、在架构模型方面,RabbitMQ遵循AMQP协议,RabbitMQ的broker由Exchange,Binding,queue组成,其中exchange和binding组成消息的路由键。客户端Producer通过连接channel和serve
-
HIVE的体系结构
Hive体系结构,主要分为以下几个部分:
用户接口
用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是 CLI,Cli 启动的时候,会同时启动一个 Hive 副本。Client 是 Hive 的客户 -
HIVE数据存储
首先,Hive 没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织 Hive 中的表,只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数
-
HIVE有哪些模式
单用户数据库模式
单用户数据库模式:通过网络连接到一个数据库中,是最经常使用到的模式。
单用户Derby模式
单用户Derby模式:此模式连接到一个In-memory 的数据库Derby,一般 -
HIVE的执行流程
•编译器将一个Hive QL转换操作符
•操作符是Hive的最小的处理单元
•每个操作符代表HDFS的一个操作或者一道MapReduce作业
Operator
•Operator都是hive定 -
单机部署hadoop
注:单机部署主要是为了调试用,生产环境上一般是集群部署。
-
什么是HIVE?HIVE有什么用?
Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hi
-
什么是HADOOP?
Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HD -
HADOOP生态圈组件介绍
1. hadoop 生态概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存
-
什么叫数据仓库?
英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创