数据百科

大数据

大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

  • 数据仓库建设以及选择

    数据仓库建设以及选择

    不管什么平台,或者自研,都需要,调度系统,任务上下线,集群监控,任务管理,数据分析界面,血缘关系,数据质量管理平台等等这些
    数据源有哪些?业务库,埋点,日志,非关系型数据库,文件,接口等等

  • centos 7安装部署elasticsearch 7.5.1

    centos 7安装部署elasticsearch 7.5.1

    环境准备
    centos 7.7 x86_64 操作系统(操作系统安装部分省略)

    官网下载 elasticsearch-7.5.1,小编已经把文件放在了云空间,提供下载:
    链接:https://pan.baidu.com/s/1n9Dv61edh4V

  • ElasticSearch启动报错 ERROR: [4] bootstrap checks failed

    ElasticSearch启动报错 ERROR: [4] bootstrap checks failed

    ElasticSearch启动报错如下:
    ERROR: [4] bootstrap checks failed
    [1]: max file descriptors [4096] for elasticsearch process is too low, increase to at least [65535]

  • 强化spark概念

    强化spark概念

    概念Transformation用来从存在的rdd产生新rdd。rdd图系,成为rdd操作图或者rdd依赖图。是逻辑执行计划,有向无循环图DAG,Transformation是懒惰执行,当执行Action时才被执行。分类

  • 导入数据到hive的三种方式

    导入数据到hive的三种方式

    首先我们在hive中要建好一个表,这里用比较难的方式来假设,假设是外部表并且是分区表stg.test,按bus_date(string)分区。方式一:上传数据后修复首先上传数据到HDFS中:hadoop fs -mkd

  • Hive元数据管理

    Hive元数据管理

    众所周知,hive表中的数据是HDFS上的文件,可是hive怎么知道这些文件的内容都对应哪个字段,对应哪个分区呢?就是hive的元数据管理着这一切。通常在hive-site.xml中的元数据库配置

  • 从基础概念了解学习Kafka

    从基础概念了解学习Kafka

    Kafka 创建背景Kafka 是一个消息系统,原本开发自 LinkedIn,用作 LinkedIn 的活动流(Activity Stream)和运营数据处理管道(Pipeline)的基础。现在它已被多家不同类型的公司 作

  • 浅淡kafka和mq的区别

    浅淡kafka和mq的区别

      1、在架构模型方面,RabbitMQ遵循AMQP协议,RabbitMQ的broker由Exchange,Binding,queue组成,其中exchange和binding组成消息的路由键。客户端Producer通过连接channel和serve

  • HIVE的体系结构

    HIVE的体系结构

    Hive体系结构,主要分为以下几个部分:



    用户接口
    用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是 CLI,Cli 启动的时候,会同时启动一个 Hive 副本。Client 是 Hive 的客户

  • HIVE数据存储

    HIVE数据存储

    首先,Hive 没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织 Hive 中的表,只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数

  • HIVE有哪些模式

    HIVE有哪些模式

    单用户数据库模式
    单用户数据库模式:通过网络连接到一个数据库中,是最经常使用到的模式。


    单用户Derby模式
    单用户Derby模式:此模式连接到一个In-memory 的数据库Derby,一般

  • HIVE的执行流程

    HIVE的执行流程

    •编译器将一个Hive QL转换操作符
    •操作符是Hive的最小的处理单元
    •每个操作符代表HDFS的一个操作或者一道MapReduce作业
    Operator
    •Operator都是hive定

  • 单机部署hadoop

    单机部署hadoop

    注:单机部署主要是为了调试用,生产环境上一般是集群部署。

  • 什么是HIVE?HIVE有什么用?

    什么是HIVE?HIVE有什么用?

    Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hi

  • 什么是HADOOP?

    什么是HADOOP?


    Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HD

  • HADOOP生态圈组件介绍

    HADOOP生态圈组件介绍

    1. hadoop 生态概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存

  • 什么叫数据仓库?

    什么叫数据仓库?

    英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创