阿里云数据传输服务DTS(阿里云文件传输)
213
2022-12-14
本文目录一览:
众所周知,亚马逊电商已经撤出了中国,具体原因我想大家都心知肚明,但是作为云计算市场的老大,亚马逊在中国依旧运营着它的公有云服务。
由于政策原因,亚马逊不能在中国大陆运营云计算服务,其在中国有三个数据中心分别为北京、宁夏和香港,而这三个数据中心分别由三家公司负责运营,分别是光环新网、西云数据和亚马逊自营,对于要多区域部署的企业来说也是稍微有些分裂。
AWS中国不接受个人用户注册,也就是说你必须是企业才能在亚马逊上运行业务,而且亚马逊不支持预付费,只有按量付费和RI预留实例券,多少与很多中国企业的财务制度有些冲突。另外看AWS中国官网的成功案例大多是欧美企业,中国客户不多,而且很多用AWS中国的也大多是跨国企业在中国的分支或者主营业务在海外的中国公司。
虽然AWS是全球第一,且遥遥领先于老二和老三,但是在中国乃至亚太地区,AWS还是有点水土不服,落后于阿里云。不可否认,阿里一开始就是学的亚马逊,不管是电商还是云计算。从服务模式到产品命名都有浓郁的亚马逊味道。当然今时不同往日,阿里云已经走出了自己的一片天,虽然还是落后很多,但技术创新和增长率却是持续领先。
我们回归主题,如果我们的业务部署在AWS上,现在感觉不爽了怎么办?可以迁移吗?往哪迁?答案是肯定的,哪个厂商也不能绑定我们,我们可以用脚投票,哪里不爽就搬家。当然迁云是要讲策略、有技术、用工具的。云上搬家最主要是应用、数据和存储,下面我们分别讲怎么做。
应用 :最简单粗暴的做法就是将运行应用的服务器连锅端,各家云厂商都提供服务器的搬家服务,以阿里云的服务器迁移中心(SMC)为例,它可以
具体流程如下:
数据库 :数据库迁移要求不停机且能保证数据一致性。阿里云的数据库迁移服务(DTS)可以满足这个需求。
数据库迁移服务(DTS)支持多种数据之间的迁移
文件存储: 亚马逊的S3无疑是众多用户存储海量文件的首选,那么我们就看看如何从S3迁移到阿里云的对标产品OSS。
首先,在AWS侧,先预估需要迁移的文件存储量和个数
然后创建用于迁移的访问密钥。你可以在 AWS 控制台的 IAM 页面创建用户并授予AmazonS3ReadOnlyAccess权限,然后创建访问密钥。
然后,在阿里云侧,登陆OSS的数据在线迁移控制台,按照提示赋予角色权限。
创建源地址,登录阿里云数据在线迁移控制台,选择 在线迁移服务 数据地址 ,然后单击 创建数据地址 ,具体参数如下
创建目标地址,选择 在线迁移服务 数据地址 ,然后单击 创建数据地址 。配置相关参数如下:
创建迁移任务,选择 在线迁移服务 迁移任务 ,然后单击 创建迁移任务 。配置参数如下:
在 性能调优 页签的 数据预估 区域,填写 迁移存储量 和 迁移文件个数
在 性能调优 页签的 流量控制 区域,设置 限流时间段 和 最大流量 ,然后单击 添加 。
单击 创建 。等待迁移任务完成。
不知道看过上面的介绍,你是否有尝试一下的想法或者有其他的方法,欢迎大家一起来讨论。
使用数据传输服务(DTS)将本地数据库迁移到 阿里云的云数据库RDS,可以实现应用不停服务的情况下,平滑完成数据库的迁移工作。接下来我们将学习下如何使用DTS将本地数据库迁移到RDS上。
在正式迁移之前,需要先在本地数据库和RDS实例中创建迁移帐号,并在RDS实例中创建要迁移的数据库,并将要迁移的数据库的读写权限授权给迁移帐号。不同的迁移类型需要不同的权限,如下表所示。
1.在本地数据库中创建迁移账号
2.在本地数据库中给迁移账号授权,本地数据库中迁移账号的权限
3. 在 RDS 管理控制台 上单击【迁移数据库】进入DTS,如下图所示。
4.单击 【建在线迁移任务】进入 创建迁移任务 页面,如下图所示。
5.输入任务名称、本地数据库信息和目标数据库信息,单击【授权白名单并进入下一步】如下图所示。
6.择迁移类型,并在【迁移对象 】选择要迁移的对象,单击 将要迁移的对象放入【已选择 】,单击 【检查并启动】如图所示。
如果要修改迁移对象在目标数据库上的名字,可以在 已选择 列表右侧单击 编辑 ,修改已选择的对象名称。
7.系统显示预检查结果,如下图所示
8.单击检测结果为失败的检测项后的 !,查看失败详细信息,根据失败详细信息完成错误排查。
9.错误排查完毕后,在 迁移任务列表 页面,选择当前迁移任务,单击【启动】如下图所示
10.系统预检查通过后,单击【确定】,自动进行迁移任务,如下图所示。
注:为了保证本地数据库安全,请在数据迁移完成后,删除本地数据库和 RDS 实例中的迁移帐号。
otter已在阿里云推出商业化版本 数据传输服务DTS, 开通即用,免去部署维护的昂贵使用成本。DTS针对阿里云RDS、DRDS等产品进行了适配,解决了Binlog日志回收,主备切换、VPC网络切换等场景下的同步高可用问题。同时,针对RDS进行了针对性的性能优化。出于稳定性、性能及成本的考虑,强烈推荐阿里云用户使用DTS产品。DTS产品使用文档
阿里巴巴B2B公司,因为业务的特性,卖家主要集中在国内,买家主要集中在国外,所以衍生出了杭州和美国异地机房的需求,同时为了提升用户体验,整个机房的架构为双A,两边均可写,由此诞生了otter这样一个产品。
otter第一版本可追溯到04~05年,此次外部开源的版本为第4版,开发时间从2011年7月份一直持续到现在,目前阿里巴巴B2B内部的本地/异地机房的同步需求基本全上了otte4。
名称:otter ['ɒtə(r)]
译意: 水獭,数据搬运工
语言: 纯java开发
定位: 基于数据库增量日志解析,准实时同步到本机房或异地机房的mysql/oracle数据库. 一个分布式数据库同步系统
原理描述:
1. 基于Canal开源产品,获取数据库增量日志数据。 什么是Canal, 请点击
2. 典型管理系统架构,manager(web管理)+node(工作节点)
a. manager运行时推送同步配置到node节点
b. node节点将同步状态反馈到manager上
3. 基于zookeeper,解决分布式状态调度的,允许多node节点之间协同工作.
据传输服务(Data Transmission Service) DTS支持关系型数据库、NoSQL、大数据(OLAP)等数据源间的数据传输。 它是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。数据传输致力于在公共云、混合云场景下,解决远距离、毫秒级异步数据传输难题。 它底层的数据流基础设施为阿里双11异地多活基础架构, 为数千下游应用提供实时数据流,已在线上稳定运行3年之久。 您可以使用数据传输轻松构建安全、可扩展、高可用的数据架构。
一、离线数据同步
DataX
阿里的Datax是比较优秀的产品,基于python,提供各种数据村塾的读写插件,多线程执行,使用起来也很简单,操作简单通常只需要两步;
创建作业的配置文件(json格式配置reader,writer);
启动执行配置作业。
非常适合离线数据,增量数据可以使用一些编码的方式实现,
缺点:仅仅针对insert数据比较有效,update数据就不适合。缺乏对增量更新的内置支持,因为DataX的灵活架构,可以通过shell脚本等方式方便实现增量同步。
参考资料:
github地址:
dataX3.0介绍:
datax初体验:
文档:
Sqoop
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
地址:
Sqoop导入:导入工具从RDBMS到HDFS导入单个表。表中的每一行被视为HDFS的记录。所有记录被存储在文本文件的文本数据或者在Avro和序列文件的二进制数据。
Sqoop导出:导出工具从HDFS导出一组文件到一个RDBMS。作为输入到Sqoop文件包含记录,这被称为在表中的行。那些被读取并解析成一组记录和分隔使用用户指定的分隔符。
Sqoop支持全量数据导入和增量数据导入(增量数据导入分两种,一是基于递增列的增量数据导入(Append方式)。二是基于时间列的增量数据导入(LastModified方式)),同时可以指定数据是否以并发形式导入。
Kettle
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。
Kettle的Spoon有丰富的Steps可以组装开发出满足多种复杂应用场景的数据集成作业,方便实现全量、增量数据同步。缺点是通过定时运行,实时性相对较差。
NiFi
Apache NiFi 是一个易于使用、功能强大而且可靠的数据拉取、数据处理和分发系统,用于自动化管理系统间的数据流。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑,支持从多种数据源动态拉取数据。
NiFi基于Web方式工作,后台在服务器上进行调度。 用户可以为数据处理定义为一个流程,然后进行处理,后台具有数据处理引擎、任务调度等组件。
几个核心概念:
Nifi 的设计理念接近于基于流的编程 Flow Based Programming。
FlowFile:表示通过系统移动的每个对象,包含数据流的基本属性
FlowFile Processor(处理器):负责实际对数据流执行工作
Connection(连接线):负责不同处理器之间的连接,是数据的有界缓冲区
Flow Controller(流量控制器):管理进程使用的线程及其分配
Process Group(过程组):进程组是一组特定的进程及其连接,允许组合其他组件创建新组件
参考资料
Nifi简介及核心概念整理
官方网站:
二、实时数据同步
实时同步最灵活的还是用kafka做中间转发,当数据发生变化时,记录变化到kafka,需要同步数据的程序订阅消息即可,需要研发编码支持。这里说个mysql数据库的同步组件,阿里的canal和otter
canal
数据抽取简单的来说,就是将一个表的数据提取到另一个表中。有很多的ETL工具可以帮助我们来进行数据的抽取和转换,ETL工具能进行一次性或者定时作业抽取数据,不过canal作为阿里巴巴提供的开源的数据抽取项目,能够做到实时抽取,原理就是伪装成mysql从节点,读取mysql的binlog,生成消息,客户端订阅这些数据变更消息,处理并存储。下面我们来一起搭建一下canal服务
早期,阿里巴巴B2B公司因为存在杭州和美国双机房部署,存在跨机房同步的业务需求。不过早期的数据库同步业务,主要是基于trigger的方式获取增量变更,不过从2010年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅消费的业务,从此开启了一段新纪元。
ps. 目前内部版本已经支持mysql和oracle部分版本的日志解析,当前的canal开源版本支持5.7及以下的版本(阿里内部mysql 5.7.13, 5.6.10, mysql 5.5.18和5.1.40/48)
基于日志增量订阅消费支持的业务:
数据库镜像
数据库实时备份
多级索引 (卖家和买家各自分库索引)
search build
业务cache刷新
价格变化等重要业务消息
otter
otter是在canal基础上又重新实现了可配置的消费者,使用otter的话,刚才说过的消费者就不需要写了,而otter提供了一个web界面,可以自定义同步任务及map表。非常适合mysql库之间的同步。
另外:otter已在阿里云推出商业化版本 数据传输服务DTS, 开通即用,免去部署维护的昂贵使用成本。DTS针对阿里云RDS、DRDS等产品进行了适配,解决了Binlog日志回收,主备切换、VPC网络切换等场景下的同步高可用问题。同时,针对RDS进行了针对性的性能优化。出于稳定性、性能及成本的考虑,强烈推荐阿里云用户使用DTS产品。
发表评论
暂时没有评论,来抢沙发吧~