云数据库虚拟主机(云服务器云虚拟主机)
207
2022-07-15
现在大数据使用广泛, 各方各业都开始利用大数据资源来获取精准流量,大数据集成平台就是负责收集处理数据。数据集成是什么意思?大数据集成平台构架有什么?下面大家就来看看下文详细了解下吧。
一、数据集成是什么意思?
数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。
二、数据集成的关键是什么?
对数据集成体系结构来说,关键是拥有一个包含有目标计划、源-目标映射、数据获得、分级抽取、错误恢复和安全性转换的数据高速缓存器。此外,数据高速缓存器包含有预先定制的数据抽取工作,这些工作自动地位于一个企业的后端及数据仓库之中。
一个高速缓存器作为企业和电子商务数据的一个单一集成点,大限度地减少了对直接访问后端系统和进行复杂实时集成的需求。这个高速缓存器从后端系统中卸载众多不必要的数据请求,因此使电子商务公司可以增加更多的用户,同时让后端系统从事其指定的工作。
三、大数据集成平台构架有什么?
(一)、数据采集
日志是大数据平台重要数据来源之一,应用程序日志一方面记录各种程序执行状况,一方面记录用户的操作轨迹。Flume 是大数据日志收集常用的工具。Flume 最早由 Cloudera 开发,后来捐赠给 Apache 基金会作为开源项目运营。
(二)、数据处理
大数据平台的核心,分为离线计算和实时计算两类。
(三)、数据输出
大数据处理与计算产生的数据写入到 HDFS 中,但应用程序不会到 HDFS 中读取数据,所以必须要将 HDFS 中的数据导出到数据库中。除了给用户提供数据,大数据平台还需要在一些后台系统中给运营和决策层提供各种统计数据,这些数据也写入数据库,被相应的后台系统访问。
(四)、任务调度管理
将上面三个部分有效整合和运转起来的是任务调度管理系统,它的主要作用是:合理调度各种 MapReduce、Spark 任务使资源利用最合理,尽快执行临时的重要任务,对作业提交、进度跟踪、数据查看等功能。
数据集成是什么意思?大数据集成平台构架有什么?上文给大家介绍了大数据集成平台的基本构架,大家可以详细看看各个方面的内容介绍。
发表评论
暂时没有评论,来抢沙发吧~