阿里云dataworks(阿里云dataworks竞争对手)

admin 200 2023-05-13

阿里云服务器优惠多,折扣错,惊喜多,请咨询:www.wqiis.com

本文目录一览:

ODPS(MaxCompute)基础教程

1. 什么是ODPS

简单讲就是数据仓库,可以存储海量数据,可针对海量数据进行分析、计算。

本命其实叫 MaxCompute ,本文介绍统称为ODPS 

官方文档链接:

DataWorks 开发套件

是数据工场,对ODPS数据进行加工处理,主要提供了: 数据集成 、 数据开发 、 数据管理 、 数据治理 、 数据分享 等功能。

官方文档链接:

2. 登录篇(阿里云子账号)

子账号登录地址:

产品列表:数加 · DataWorks

账号赋权:如需要进行数据开发,需要根据业务需求,赋对应缓枯握的工作空间的对应权限。

进入DataWorks 扰庆工作空间列表页面,单击对应项目中的进入工作区,即可进入数据开发页面。(如下图)

2.使用篇

目前数据仓败尘库的整体概况

目前承载的业务

业务操作日志备份分析

其他日志:系统运行日志

BI 数据分析相关(市场部BI)

开发前环境准备

开通DataWorks 权限的子账号

创建项目(1)

官方的文档:

目前我们的工作空间

新建调度资源(2)

一般进行简单的数据分析只需要默认的调度资源就满足业务需求(目前的模式就是按量付费)

需要进行特殊的数据集成、数据操作时会用到自定义资源

PyOdps 资源组:执行py脚本的资源组

mongoDB 资源组:进行MongDb -- ODPS 时会用到资源进行数据同步。

新增数据源(3)

路径:选择项目 - 选择数据集成 - 同步资源管理 - 数据源

按照官方文档新增即可

数据源列表

批量数据上云(4)

路径:选择项目 - 选择数据集成 - 同步资源管理 - 数据源 - 整库数据迁移

数据开发前准备工作完成,可以进入开发阶段。

3 开发篇

数据开发

基本概念:

业务流程:解决一个业务的抽象模型,可以是一个问题的处理流程。

解决方案:多个业务流程组合成一个解决方案,在同一个解决方案里面可以复用相同的业务流程。

其他的概念:

数据开发流程:

数据开发流程:

选取两个现有的业务进行数据开发演示

财务部门需求

数据埋点分析

流程图如下

4 运维

运维中心:

大数据阿里云工具之DataWorks(二)

本文主要介绍dataworks的运维中心、智能监控

一.运维中心

运维中心在是dataworks当中的任务调度模块,我们书写好业务流程后,会把业务流程进行提交,提交后的业务流程就会在运维中心进行显示,会按照你设置节点的调度周期开始调度任务。

ps:如果是双环境任务的话,运维中心也会有两个,可在DAG图里面查看当前环境是开发还是生产。

运维大屏

显示 的是已有的任务调度情况,包括新增的任务,失败的、正在运行中的都可以看到

实时任务运维

需要实时计算引擎,这里暂时还没有,以后给大家介绍

周期任务运维

离线任务节点信息,我们银塌态配置好离线任务发布后就是在这里进行调度维护的,如果是双环境的话,开发环境提交的任务节点就是在开发运维环境,在编辑节点的时候点击发布按钮才是提交到生产环境。

周期任务运维分为四个功能 周期任务、周期实例、补数据实例、测试实例

周期任务:就是可以查看到我们提交的r离线任务节点,在这里可以查看到我们离线任务的DAG图,血缘关系,并可以添加报警信息,进行测试,和补数据、冻结节点、下线节点等操作

周期实例:会按照调度周期,每天生成实例,如果是日调度,那么在周期实例里,每天都会有一个实例,如果是小时那么一天会有24个实例,可以选择日期进行查看。

补数据实例:补数据就是针对我们以前缺失的数据进行补数据,可以选择当前节点和当前及下节点。

测试实例:就是我们再周期任务里点击测试生成的实例,每一次节点的测试都会生成测试实例,在这里进行观看,可以看到实例的运行任务和日志等情况

手动任务运维:

区别我们的周期任务,我们的周期任务都有调度周期,但是手动任务是没有的,例如某些任务需要临时补救的操作或者数据调整,只是用一次或者几次而且调度时间都不相同的话,可以创建手动任务来进行调度。

智能监控:

智能监控这边主要是为了监控我们的调度任务节点一些运行情况

主要使用到的还是添加一些报警信衫氏息,在报警信息里面可以添加我们的报警邮件和短信,也可以把报警信息添加到我们的钉钉群里

规则管理锋源:主要就是我们数据质量的规则设定,详情请看上一篇文章

二、总结

这一片写的相对减少,主要是网不太好,一会断一会断的,只要掌握这些操作,至少你使用阿里云大数据服务操作基本没什么问题,从数据的采集到数据加工到数据同步,任务的调度、任务监控这一系列的文章里都有介绍,如有什么描述不清楚的还望多多批评指正,如有问题,请评论交流 谢谢浏览

阿里云dataworks境外可以用吗

可以用。每个国家的数据流量是怎么计费的各穗慧缺不相同。出国前打电话问问电话运营商,要去的国猜辩家怎么收流碧团量费。

datax日期为空报错

题主是否想询问“datax日期为空报错怎么解决 ”?将所赋值的字段重置为空。在dataX脚本读取reader中判断迅斗时间类型的字符串为空时,赋一时间戳类型的时间默认值,这个默认值应该是容易与数据真实时间值区分的时间。在写入writer中postSql中处理,datax日期晌拦为空报错应将所赋值的字段重置为空。DataX是阿里云DataWorks数据集成的开源版本。DataX 是阿里云 DataWorks数据集成 的开源版本,在亩谨磨阿里巴巴集团内被广泛使用的离线数据同步工具平台。

说说数仓(6)-关于命名规范

数仓总结目录:

说说数仓(1) - 什么是数仓

说说数仓(2) - 传统数仓与互联网数仓

说说数仓(3) - 数仓架构

说说数仓(4) - 指标字典

说说数仓(5)-最重要的维度之日期维度

说说数仓(6)-关于命名规范

说说数仓(7)-浅谈数据治理

说说数仓(8)-关于增量

说说数仓(9)-上下游约定

说说数仓(10)-任务注释

话说,没有规矩不成方圆。在搭建数据平台的时候,在数据组内部,一定要先制定好各种规范,越早越好,并且不断的监督大家是否按照约定执行。一旦让大家自由发挥,后期想要统一或者重构,会浪费很大的人力成本和时间成本,记住,这都是坑。

这里以我目前公司的一些经验,高早分享下。

常规来说,数仓的建设是按照数仓分层模型开发的。也有会按照业务线来分层,在各自业务线下重新分层,单独开发的。

我这里使用的是阿里云的MaxCompute,这是阿里提供的数据平台,一整套开发环境,用起来还是很方便的,省去了自建平台的麻烦。MaxCompute里面有一个项目的概念,一开始本来打算直接根据分层模型的设计来创建项目,但是由于某种原因,改成了按照业务线来创建项目。对于这个项目名,一定要想好,不管根据什么来设计,都需要想清楚,想明白,定了以后就不要再改了,也没法改。

我忘记是不是叫“词根”了,先写着,后面找本书确认下。词根属于数仓建设中的规范,属于元数据管理的范畴。衡仔哦,现在都把这个划到数据治理的一部分。

正常来说,完整的数仓建设是包含数据治理的,只是现在谈到数仓偏向于数据建模,而谈到数据治理,更多的戚拦雀是关于数据规范、数据管理。

接着说我们的主角-词根。

我们学习英语的时候应该有了解过词根这个东西,它就是最细粒度的最简单的一个词语,我们主要用来规范中文和英文的映射关系。我们公司一部分业务是关于货架的,英文名是:rack,rack就是一个词根,那我们就在所有的表、字段等用到的地方都叫rack,不要叫成别的什么。这就是词根的作用,用来统一命名,表达同一个含义。

指标体系中有很多“率”的指标,都可以拆解成XXX+率,率可以叫rate,那我们所有的指标都叫做XXX+rate。

词根可以用来统一表名、字段名、主题域名等等。

表名需要见名知意,通过表名就可以知道它是哪个业务域,干嘛用的,什么粒度的数据。

中间表在创建时,请加上 ,如果要保留历史的中间表,可以加上日期或者时间戳

指标的命名也参考词根,避免出现同一个指标,10个人有10个命名方法。

具体操作结合公司实际情况,规范及早制定。

附上之前我们再阿里DataWorks上的一个规范示例

上一篇:阿里云盘送多少免费空间(阿里云盘领取2t)
下一篇:阿里云主机器(阿里云主机性能测评)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~