阿里云dataworks(阿里云dataworks优缺点)
220
2023-05-13
本文目录一览:
1. 什么是ODPS
简单讲就是数据仓库,可以存储海量数据,可针对海量数据进行分析、计算。
本命其实叫 MaxCompute ,本文介绍统称为ODPS
官方文档链接:
DataWorks 开发套件
是数据工场,对ODPS数据进行加工处理,主要提供了: 数据集成 、 数据开发 、 数据管理 、 数据治理 、 数据分享 等功能。
官方文档链接:
2. 登录篇(阿里云子账号)
子账号登录地址:
产品列表:数加 · DataWorks
账号赋权:如需要进行数据开发,需要根据业务需求,赋对应缓枯握的工作空间的对应权限。
进入DataWorks 扰庆工作空间列表页面,单击对应项目中的进入工作区,即可进入数据开发页面。(如下图)
2.使用篇
目前数据仓败尘库的整体概况
目前承载的业务
业务操作日志备份分析
其他日志:系统运行日志
BI 数据分析相关(市场部BI)
开发前环境准备
开通DataWorks 权限的子账号
创建项目(1)
官方的文档:
目前我们的工作空间
新建调度资源(2)
一般进行简单的数据分析只需要默认的调度资源就满足业务需求(目前的模式就是按量付费)
需要进行特殊的数据集成、数据操作时会用到自定义资源
PyOdps 资源组:执行py脚本的资源组
mongoDB 资源组:进行MongDb -- ODPS 时会用到资源进行数据同步。
新增数据源(3)
路径:选择项目 - 选择数据集成 - 同步资源管理 - 数据源
按照官方文档新增即可
数据源列表
批量数据上云(4)
路径:选择项目 - 选择数据集成 - 同步资源管理 - 数据源 - 整库数据迁移
数据开发前准备工作完成,可以进入开发阶段。
3 开发篇
数据开发
基本概念:
业务流程:解决一个业务的抽象模型,可以是一个问题的处理流程。
解决方案:多个业务流程组合成一个解决方案,在同一个解决方案里面可以复用相同的业务流程。
其他的概念:
数据开发流程:
数据开发流程:
选取两个现有的业务进行数据开发演示
财务部门需求
数据埋点分析
流程图如下
4 运维
运维中心:
本文主要介绍dataworks的运维中心、智能监控
一.运维中心
运维中心在是dataworks当中的任务调度模块,我们书写好业务流程后,会把业务流程进行提交,提交后的业务流程就会在运维中心进行显示,会按照你设置节点的调度周期开始调度任务。
ps:如果是双环境任务的话,运维中心也会有两个,可在DAG图里面查看当前环境是开发还是生产。
运维大屏
显示 的是已有的任务调度情况,包括新增的任务,失败的、正在运行中的都可以看到
实时任务运维
需要实时计算引擎,这里暂时还没有,以后给大家介绍
周期任务运维
离线任务节点信息,我们银塌态配置好离线任务发布后就是在这里进行调度维护的,如果是双环境的话,开发环境提交的任务节点就是在开发运维环境,在编辑节点的时候点击发布按钮才是提交到生产环境。
周期任务运维分为四个功能 周期任务、周期实例、补数据实例、测试实例
周期任务:就是可以查看到我们提交的r离线任务节点,在这里可以查看到我们离线任务的DAG图,血缘关系,并可以添加报警信息,进行测试,和补数据、冻结节点、下线节点等操作
周期实例:会按照调度周期,每天生成实例,如果是日调度,那么在周期实例里,每天都会有一个实例,如果是小时那么一天会有24个实例,可以选择日期进行查看。
补数据实例:补数据就是针对我们以前缺失的数据进行补数据,可以选择当前节点和当前及下节点。
测试实例:就是我们再周期任务里点击测试生成的实例,每一次节点的测试都会生成测试实例,在这里进行观看,可以看到实例的运行任务和日志等情况
手动任务运维:
区别我们的周期任务,我们的周期任务都有调度周期,但是手动任务是没有的,例如某些任务需要临时补救的操作或者数据调整,只是用一次或者几次而且调度时间都不相同的话,可以创建手动任务来进行调度。
智能监控:
智能监控这边主要是为了监控我们的调度任务节点一些运行情况
主要使用到的还是添加一些报警信衫氏息,在报警信息里面可以添加我们的报警邮件和短信,也可以把报警信息添加到我们的钉钉群里
规则管理锋源:主要就是我们数据质量的规则设定,详情请看上一篇文章
二、总结
这一片写的相对减少,主要是网不太好,一会断一会断的,只要掌握这些操作,至少你使用阿里云大数据服务操作基本没什么问题,从数据的采集到数据加工到数据同步,任务的调度、任务监控这一系列的文章里都有介绍,如有什么描述不清楚的还望多多批评指正,如有问题,请评论交流 谢谢浏览
可以用。每个国家的数据流量是怎么计费的各穗慧缺不相同。出国前打电话问问电话运营商,要去的国猜辩家怎么收流碧团量费。
题主是否想询问“datax日期为空报错怎么解决 ”?将所赋值的字段重置为空。在dataX脚本读取reader中判断迅斗时间类型的字符串为空时,赋一时间戳类型的时间默认值,这个默认值应该是容易与数据真实时间值区分的时间。在写入writer中postSql中处理,datax日期晌拦为空报错应将所赋值的字段重置为空。DataX是阿里云DataWorks数据集成的开源版本。DataX 是阿里云 DataWorks数据集成 的开源版本,在亩谨磨阿里巴巴集团内被广泛使用的离线数据同步工具平台。
数仓总结目录:
说说数仓(1) - 什么是数仓
说说数仓(2) - 传统数仓与互联网数仓
说说数仓(3) - 数仓架构
说说数仓(4) - 指标字典
说说数仓(5)-最重要的维度之日期维度
说说数仓(6)-关于命名规范
说说数仓(7)-浅谈数据治理
说说数仓(8)-关于增量
说说数仓(9)-上下游约定
说说数仓(10)-任务注释
话说,没有规矩不成方圆。在搭建数据平台的时候,在数据组内部,一定要先制定好各种规范,越早越好,并且不断的监督大家是否按照约定执行。一旦让大家自由发挥,后期想要统一或者重构,会浪费很大的人力成本和时间成本,记住,这都是坑。
这里以我目前公司的一些经验,高早分享下。
常规来说,数仓的建设是按照数仓分层模型开发的。也有会按照业务线来分层,在各自业务线下重新分层,单独开发的。
我这里使用的是阿里云的MaxCompute,这是阿里提供的数据平台,一整套开发环境,用起来还是很方便的,省去了自建平台的麻烦。MaxCompute里面有一个项目的概念,一开始本来打算直接根据分层模型的设计来创建项目,但是由于某种原因,改成了按照业务线来创建项目。对于这个项目名,一定要想好,不管根据什么来设计,都需要想清楚,想明白,定了以后就不要再改了,也没法改。
我忘记是不是叫“词根”了,先写着,后面找本书确认下。词根属于数仓建设中的规范,属于元数据管理的范畴。衡仔哦,现在都把这个划到数据治理的一部分。
正常来说,完整的数仓建设是包含数据治理的,只是现在谈到数仓偏向于数据建模,而谈到数据治理,更多的戚拦雀是关于数据规范、数据管理。
接着说我们的主角-词根。
我们学习英语的时候应该有了解过词根这个东西,它就是最细粒度的最简单的一个词语,我们主要用来规范中文和英文的映射关系。我们公司一部分业务是关于货架的,英文名是:rack,rack就是一个词根,那我们就在所有的表、字段等用到的地方都叫rack,不要叫成别的什么。这就是词根的作用,用来统一命名,表达同一个含义。
指标体系中有很多“率”的指标,都可以拆解成XXX+率,率可以叫rate,那我们所有的指标都叫做XXX+rate。
词根可以用来统一表名、字段名、主题域名等等。
表名需要见名知意,通过表名就可以知道它是哪个业务域,干嘛用的,什么粒度的数据。
中间表在创建时,请加上 ,如果要保留历史的中间表,可以加上日期或者时间戳
指标的命名也参考词根,避免出现同一个指标,10个人有10个命名方法。
具体操作结合公司实际情况,规范及早制定。
附上之前我们再阿里DataWorks上的一个规范示例
发表评论
暂时没有评论,来抢沙发吧~