腾讯云hbase(腾讯云服务器)
本文目录一览:
- 1、一直很热闹的数据库领域,有哪些事情让你感觉眼前一亮?
- 2、2019数据架构选型必读:1月数据库产品技术解析
- 3、腾讯云IaaS全线升级,剑指大数据风口
- 4、hbase数据库是关系型数据库吗
- 5、做世界云计算的“两极”,阿里云如何跨过“企业关”?
- 6、腾讯大数据sre面经
一直很热闹的数据库领域,有哪些事情让你感觉眼前一亮?
、多媒体数据库
这类数据库主要存储与多媒体相关的数据,如声音、图像和视频等数据。多媒体数据最大的特点是数据连续,而且数据量比较大,存储需要的空间较大。
搜狗问问
2、移动数据库
该类数据库是在移动计算机系统上发展起来的,如笔记本电脑、掌上计算机等。该数据库最大的特点是通过无线数字通信网络传输的。移动数据库可以随时随地地获取和访问数据,为一些商务应用和一些紧急情况带来了很大的便利。
3、数据库技术在多媒体技术方面的应用。
相对比传统的数据库技术,这种结合了多媒体技术的数据库,以多媒体技术的优势使得数据界面的丰富化并对于两者结合所可能带来的相关技术问题给予了充分解决,相关数据库方面的安全性得到了很好的提高。
多媒体数据库设计中有很多问题需要解决:用户接口支持方面、数据库组织与存储方面、媒体种类增加方面信息的分布影响方面。
4、信息检索系统
信息检索就是根据用户输入的信息,从数据库中查找相关的文档或信息,并把查找的信息反馈给用户。信息检索领域和数据库是同步发展的,它是一种典型的联机文档管理系统或者联机图书目录。
2019数据架构选型必读:1月数据库产品技术解析
本期目录
DB-Engines数据库排行榜
新闻快讯
一、RDBMS家族
二、NoSQL家族
三、NewSQL家族
四、时间序列
五、大数据生态圈
六、国产数据库概览
七、云数据库
八、推出dbaplus Newsletter的想法
九、感谢名单
为方便阅读、重点呈现,本期Newsletter(2019年1月)将对各个板块的内容进行精简。需要阅读全文的同学可点击文末 【阅读原文】 或登录
进行下载。
DB-Engines数据库排行榜
以下取自2019年1月的数据,具体信息可以参考,数据仅供参考。
DB-Engines排名的数据依据5个不同的因素:
新闻快讯
1、2018年9月24日,微软公布了SQL Server2019预览版,SQL Server 2019将结合Spark创建统一数据平台。
2、2018年10月5日,ElasticSearch在美国纽约证券交易所上市。
3、亚马逊放弃甲骨文数据库软件,导致最大仓库之一在黄金时段宕机。受此消息影响,亚马逊盘前股价小幅跳水,跌超2%。
4、2018年10月31日,Percona发布了Percona Server 8.0 RC版本,发布对MongoDB 4.0的支持,发布对XtraBackup测试第二个版本。
5、2018年10月31日,Gartner陆续发布了2018年的数据库系列报告,包括《数据库魔力象限》、《数据库核心能力》以及《数据库推荐报告》。
今年的总上榜数据库产品达到了5家,分别来自:阿里云,华为,巨杉数据库,腾讯云,星环 科技 。其中阿里云和巨杉数据库已经连续两年入选。
6、2018年11月初,Neo4j宣布完成E轮8000万美元融资。11月15日,Neo4j宣布企业版彻底闭源:
7、2019年1月8日,阿里巴巴以1.033亿美元(9000万欧元)的价格收购了Apache Flink商业公司DataArtisans。
8、2019年1月11日早间消息,亚马逊宣布推出云数据库软件,亚马逊和MongoDB将会直接竞争。
RDBMS家族
Oracle 发布18.3版本
2018年7月,Oracle Database 18.3通用版开始提供下载。我们可以将Oracle Database 18c视为采用之前发布模式的Oracle Database 12c第2版的第一个补丁集。未来,客户将不再需要等待多年才能用上最新版Oracle数据库,而是每年都可以期待新数据库特性和增强。Database 19c将于2019年Q1率先在Oracle cloud上发布云版本。
Oracle Database 18c及19c部分关键功能:
1、性能
2、多租户,大量功能增强及改进,大幅节省成本和提高敏捷性
3、高可用
4、数据仓库和大数据
MySQL发布8.0.13版本
1、账户管理
经过配置,修改密码时,必须带上原密码。在之前的版本,用户登录之后,就可以修改自己的密码。这种方式存在一定安全风险。比如用户登录上数据库后,中途离开一段时间,那么非法用户可能会修改密码。由参数password_require_current控制。
2、配置
Innodb表必须有主键。在用户没有指定主键时,系统会生成一个默认的主键。但是在主从复制的场景下,默认的主键,会对丛库应用速度带来致命的影响。如果设置sql_require_primary_key,那么数据库会强制用户在创建表、修改表时,加上主键。
3、字段默认值
BLOB、TEXT、GEOMETRY和JSON字段可以指定默认值了。
4、优化器
1)Skip Scan
非前缀索引也可以用了。
之前的版本,任何没有带上f1字段的查询,都没法使用索引。在新的版本中,它可以忽略前面的字段,让这个查询使用到索引。其实现原理就是把(f1 = 1 AND f2 40) 和(f1 = 2 AND f2 40)的查询结果合并。
2)函数索引
之前版本只能基于某个列或者多个列加索引,但是不允许在上面做计算,如今这个限制消除了。
5、SQL语法
GROUP BY ASC和GROUP BY DESC语法已经被废弃,要想达到类似的效果,请使用GROUP BY ORDER BY ASC和GROUP BY ORDER BY DESC。
6、功能变化
1)设置用户变量,请使用SET语句
如下类型语句将要被废弃SELECT @var, @var:=@var+1。
2)新增innodb_fsync_threshold
该变量是控制文件刷新到磁盘的速率,防止磁盘在短时间内饱和。
3)新增会话级临时表空间
在以往的版本中,当执行SQL时,产生的临时表都在全局表空间ibtmp1中,及时执行结束,临时表被释放,空间不会被回收。新版本中,会为session从临时表空间池中分配一个临时表空间,当连接断开时,临时表空间的磁盘空间被回收。
4)在线切换Group Replication的状态
5)新增了group_replication_member_expel_timeout
之前,如果某个节点被怀疑有问题,在5秒检测期结束之后,那么就直接被驱逐出这个集群。即使该节点恢复正常时,也不会再被加入集群。那么,瞬时的故障,会把某些节点驱逐出集群。
group_replication_member_expel_timeout让管理员能更好的依据自身的场景,做出最合适的配置(建议配置时间小于一个小时)。
MariaDB 10.3版本功能展示
1、MariaDB 10.3支持update多表ORDER BY and LIMIT
1)update连表更新,limit语句
update t1 join t2 on t1.id=t2.id set t1.name='hechunyang' limit 3;
MySQL 8.0直接报错
MariaDB 10.3更新成功
2)update连表更新,ORDER BY and LIMIT语句
update t1 join t2 on t1.id=t2.id set t1.name='HEchunyang' order by t1.id DESC limit 3;
MySQL 8.0直接报错
MariaDB 10.3更新成功
参考:
2、MariaDB10.3增补AliSQL补丁——安全执行Online DDL
Online DDL从名字上看很容易误导新手,以为不论什么情况,修改表结构都不会锁表,理想很丰满,现实很骨感,注意这个坑!
有以下两种情况执行DDL操作会锁表的,Waiting for table metadata lock(元数据表锁):
针对第二种情况,MariaDB10.3增补AliSQL补丁-DDL FAST FAIL,让其DDL操作快速失败。
例:
如果线上有某个慢SQL对该表进行操作,可以使用WAIT n(以秒为单位设置等待)或NOWAIT在语句中显式设置锁等待超时,在这种情况下,如果无法获取锁,语句将立即失败。 WAIT 0相当于NOWAIT。
参考:
3、MariaDB Window Functions窗口函数分组取TOP N记录
窗口函数在MariaDB10.2版本里实现,其简化了复杂SQL的撰写,提高了可读性。
参考:
Percona Server发布8.0 GA版本
2018年12月21日,Percona发布了Percona Server 8.0 GA版本。
在支持MySQL8.0社区的基础版上,Percona Server for MySQL 8.0版本中带来了许多新功能:
1、安全性和合规性
2、性能和可扩展性
3、可观察性和可用性
Percona Server for MySQL 8.0中将要被废用功能:
Percona Server for MySQL 8.0中删除的功能:
RocksDB发布V5.17.2版本
2018年10月24日,RocksDB发布V5.17.2版本。
RocksDB是Facebook在LevelDB基础上用C++写的高效内嵌式K/V存储引擎。相比LevelDB,RocksDB提供了Column-Family,TTL,Transaction,Merge等方面的支持。目前MyRocks,TiKV等底层的存储都是基于RocksDB来构建。
PostgreSQL发布11版本
2018年10月18日,PostgreSQL 11发布。
1、PostgreSQL 11的重大增强
2、PostgreSQL 插件动态
1)分布式插件citus发布 8.1
citus是PostgreSQL的一款sharding插件,目前国内苏宁、铁总、探探有较大量使用案例。
2)地理信息插件postgis发布2.5.1
PostGIS是专业的时空数据库插件,在测绘、航天、气象、地震、国土资源、地图等时空专业领域应用广泛。同时在互联网行业也得到了对GIS有性能、功能深度要求的客户青睐,比如共享出行、外卖等客户。
3)时序插件timescale发布1.1.1
timescale是PostgreSQL的一款时序数据库插件,在IoT行业中有非常好的应用。github star数目前有5000多,是一个非常火爆的插件。
4)流计算插件 pipelinedb 正式插件化
Pipelinedb是PostgreSQL的一款流计算插件,使用这个创建可以对高速写入的数据进行实时根据定义的聚合规则进行聚合(支持概率计算),实时根据定义的规则触发事件(支持事件处理函数的自定义)。可用于IoT,监控,FEED实时计算等场景。
3、PostgreSQL衍生开源产品动态
1)agensgraph发布 2.0.0版本
agensgraph是兼容PostgreSQL、opencypher的专业图数据库,适合图式关系的管理。
2)gpdb发布5.15
gpdb是兼容PostgreSQL的mpp数据库,适合OLAP场景。近两年,gpdb一直在追赶PostgreSQL的社区版本,预计很快会追上10的PostgreSQL,在TP方面的性能也会得到显著提升。
3)antdb发布3.2
antdb是以Postgres-XC为基础开发的一款PostgreSQL sharding数据库,亚信主导开发,开源,目前主要服务于亚信自有客户。
4)迁移工具MTK发布52版本
MTK是EDB提供的可以将Oracle、PostgreSQL、MySQL、MSSQL、Sybase数据库迁移到PostgreSQL, PPAS的产品,迁移速度可以达到100万行/s以上。
DB2发布 11.1.4.4版本
DB2最新发布Mod Pack 4 and Fix Pack 4,包含以下几方面的改动及增强:
1、性能
2、高可用
3、管理视图
4、应用开发方面
5、联邦功能
6、pureScale
NoSQL家族
Redis发布5.0.3版本
MongoDB升级更新MongoDB Mobile和MongoDB Stitch
2018年11月21日,MongoDB升级更新MongoDB Mobile和MongoDB Stitch,助力开发人员提升工作效率。
MongoDB 公司日前发布了多项新产品功能,旨在更好地帮助开发人员在世界各地管理数据。通过利用存储在移动设备和后台数据库的数据之间的实时、自动的同步特性,MongoDB Mobile通用版本助力开发人员构建更快捷、反应更迅速的应用程序。此前,这只能通过在移动应用内部安装一个可供选择或限定功能的数据库来实现。
MongoDB Mobile在为客户提供随处运行的自由度方面更进了一步。用户在iOS和安卓终端设备上可拥有MongoDB所有功能,将网络边界扩展到其物联网资产范畴。应用系统还可以使用MongoDB Stitch的软件开发包访问移动客户端或后台数据,帮助开发人员通过他们希望的任意方式查询移动终端数据和物联网数据,包括本地读写、本地JSON存储、索引和聚合。通过Stitch移动同步功能(现可提供beta版),用户可以自动对保存在本地的数据以及后台数据库的数据进行同步。
本期新秀:Cassandra发布3.11.3版本
2018年8月11日,Cassandra发布正式版3.11.3。
Apache Cassandra是一款开源分布式NoSQL数据库系统,使用了基于Google BigTable的数据模型,与面向行(row)的传统关系型数据库或键值存储key-value数据库不同,Cassandra使用的是宽列存储模型(Wide Column Stores)。与BigTable和其模仿者HBase不同,数据并不存储在分布式文件系统如GFS或HDFS中,而是直接存于本地。
Cassandra的系统架构与Amazon DynamoDB类似,是基于一致性哈希的完全P2P架构,每行数据通过哈希来决定应该存在哪个或哪些节点中。集群没有master的概念,所有节点都是同样的角色,彻底避免了整个系统的单点问题导致的不稳定性,集群间的状态同步通过Gossip协议来进行P2P的通信。
3.11.3版本的一些bug fix和改进:
NewSQL家族
TiDB 发布2.1.2版本
2018 年 12 月 22 日,TiDB 发布 2.1.2 版,TiDB-Ansible 相应发布 2.1.2 版本。该版本在 2.1.1 版的基础上,对系统兼容性、稳定性做出了改进。
TiDB 是一款定位于在线事务处理/在线分析处理( HTAP: Hybrid Transactional/Analytical Processing)的融合型数据库产品。除了底层的 RocksDB 存储引擎之外,分布式SQL层、分布式KV存储引擎(TiKV)完全自主设计和研发。
TiDB 完全开源,兼容MySQL协议和语法,可以简单理解为一个可以无限水平扩展的MySQL,并且提供分布式事务、跨节点 JOIN、吞吐和存储容量水平扩展、故障自恢复、高可用等优异的特性;对业务没有任何侵入性,简化开发,利于维护和平滑迁移。
TiDB:
PD:
TiKV:
Tools:
1)TiDB-Lightning
2)TiDB-Binlog
EsgynDB发布R2.5版本
2018年12月22日,EsgynDB R2.5版本正式发布。
作为企业级产品,EsgynDB 2.5向前迈进了一大步,它拥有以下功能和改进:
CockroachDB发布2.1版本
2018年10月30日,CockroachDB正式发布2.1版本,其新增特性如下:
新增企业级特性:
新增SQL特性:
新增内核特性:
Admin UI增强:
时间序列
本期新秀:TimescaleDB发布1.0版本
10月底,TimescaleDB 1.0宣布正式推出,官方表示该版本已可用于生产环境,支持完整SQL和扩展。
TimescaleDB是基于PostgreSQL数据库开发的一款时序数据库,以插件化的形式打包提供,随着PostgreSQL的版本升级而升级,不会因为另立分支带来麻烦。
TimescaleDB架构:
数据自动按时间和空间分片(chunk)
更新亮点:
大数据生态圈
Hadoop发布2.9.2版本
2018年11月中旬,Hadoop在2.9分支上发布了新的2.9.2版本,该版本进行了204个大大小小的变更,主要变更如下:
Greenplum 发布5.15版本
Greenplum最新的5.15版本中发布了流式数据加载工具。
该版本中的Greenplum Streem Server组件已经集成了Kafka流式加载功能,并通过了Confluent官方的集成认证,其支持的主要功能如下:
国产数据库概览
K-DB发布数据库一体机版
2018年11月7日,K-DB发布了数据库一体机版。该版本更新情况如下:
OceanBase迁移服务发布1.0版本
1月4日,OceanBase 正式发布OMS迁移服务1.0版本。
以下内容包含 OceanBase 迁移服务的重要特性和功能:
SequoiaDB发布3.0.1新版本
1、架构
1)完整计算存储分离架构,兼容MySQL协议、语法
计算存储分离体系以松耦合的方式将计算与存储层分别部署,通过标准接口或插件对各个模块和组件进行无缝替换,在计算层与存储层均可实现自由的弹性伸缩。
SequoiaDB巨杉数据库“计算-存储分离”架构详细示意
用户可以根据自身业务特征选择面向交易的SQL解析器(例如MySQL或PGSQL)或面向统计分析的执行引擎(例如SparkSQL)。众所周知,使用不同的SQL优化与执行方式,数据库的访问性能可能会存在上千上万倍的差距。计算存储分离的核心思想便是在数据存储层面进行一体化存储,在计算层面则利用每种执行引擎的特点针对不同业务场景进行选择和优化,用户可以在存储层进行逻辑与物理的隔离,将面向高频交易的前端业务与面向高吞吐量的统计分析使用不同的硬件进行存储,确保在多类型数据访问时互不干扰,以真正达到生产环境可用的多租户与HTAP能力。
2、其他更新信息
1)接口变更:
2)主要特性:
云数据库
本期新秀:腾讯发布数据库CynosDB,开启公测
1、News
1)腾讯云数据库MySQL2018年重大更新:
2)腾讯云数据库MongoDB2018年重大更新:
3)腾讯云数据库Redis/CKV+2018年重大更新:
4)腾讯云数据库CTSDB2018年重大更新:
2、Redis 4.0集群版商业化上线
2018年10月,腾讯云数据库Redis 4.0集群版完成邀测、公测、商业化三个迭代,在广州、上海、北京正式全量商业化上线。
产品特性:
使用场景:
官网文档:
3、腾讯自研数据库CynosDB发布,开启公测
2018年11月22日,腾讯云召开新一代自研数据库CynosDB发布会,业界第一款全面兼容市面上两大最主流的开源数据库MySQL和PostgreSQL的高性能企业级分布式云数据库。
本期新秀:京东云DRDS发布1.0版本
12月24日,京东云分布式关系型数据库DRDS正式发布1.0版本。
DRDS是京东云精心自研的数据库中间件产品,获得了2018年 ”可信云技术创新奖”。DRDS可实现海量数据下的自动分库分表,具有高性能,分布式,弹性升级,兼容MySQL等优点,适用于高并发、大规模数据的在线交易, 历史 数据查询,自动数据分片等业务场景,历经多次618,双十一的考验,已经在京东集团内大规模使用。
京东云DRDS产品有以下主要特性
1)自动分库分表
通过简单的定义即可自动实现分库分表,将数据实际存放在多个MySQL实例的数据库中,但呈现给应用程序的依旧是一张表,对业务透明,应用程序几乎无需改动,实现了对数据库存储和处理能力的水平扩展。
2)分布式架构
基于分布式架构的集群方案,多个对等节点同时对外提供服务,不但可有效规避服务的单点故障,而且更加容易扩展。
3)超强性能
具有极高的处理能力,双节点即可支持数万QPS,满足用户超大规模处理能力的需求。
4)兼容MySQL
兼容绝大部分MySQL语法,包括MySQL语法、数据类型、索引、常用函数、排序、关联等DDL,DML语句,使用成本低。
参考链接:
RadonDB发布1.0.3版本
2018年12月26日,MyNewSQL领域的RadonDB云数据库发布1.0.3版本。
推出dbaplus Newsletter的想法
dbaplus Newsletter旨在向广大技术爱好者提供数据库行业的最新技术发展趋势,为社区的技术发展提供一个统一的发声平台。为此,我们策划了RDBMS、NoSQL、NewSQL、时间序列、大数据生态圈、国产数据库、云数据库等几个版块。
我们不以商业宣传为目的,不接受任何商业广告宣传,严格审查信息源的可信度和准确性,力争为大家提供一个纯净的技术学习环境,欢迎大家监督指正。
至于Newsletter发布的周期,目前计划是每三个月左右会做一次跟进, 下期计划时间是2019年4月14日~4月25日, 如果有相关的信息提供请发送至邮箱:newsletter@dbaplus.cn
感谢名单
最后要感谢那些提供宝贵信息和建议的专家朋友,排名不分先后。
往期回顾:
↓↓别忘了点这里下载 2019年1月 完整版Newsletter 哦~
腾讯云IaaS全线升级,剑指大数据风口
8月23日,腾讯云对外宣布正式全线升级IaaS产品,多款产品全面升级,但除此之外更为让人关注的是,此次腾讯云还一口气发布了五款重量级数据库产品,并公布数据库产品矩阵。
腾讯云数据库基本上涵盖了业界主流的数据库产品,在关系型,非关系型、分布式等均有多个产品,今年年内还将上线分析性数据库等产品,腾讯云在数据库上的新动作,让它一跃成为云数据库领域最强有力的引领者。
腾讯云向来不会随意出手,每次产品的推出都有着具体落地的用户需求,从游戏解决方案再到视频直播服务,腾讯云动作频频的背后是在为市场解决实际的问题,而在此次五款数据库发布的背后,腾讯云又看到了怎样的未来?
一,此次腾讯云数据库更新发布了什么
此次腾讯云推出了五款数据库分别为SQL Server 2012、云数据库MySQL、云数据库HBase、云数据库PostgreSQL、分布式数据库TDSQL。其中SQL Server 2012的主要目的是为了补充数据库的全面性,而其余四款均与云风口——大数据有关,均满足了企业在大数据时代,对数据库的高性能并发管理与控制的需求,以及在数据挖掘、海量存储、智能商务运算上的需求,
云数据库MySQL:摆脱传统MySQL数据存储的限制,将数据库直接搬入到更为安全可靠的云端,有着大容量、大内存、高读写、高并发的特性。QPS最高高达24万,内存最大支持488GB,容量空间最大支持6T。
云数据库HBase:适合于TB级别的数据库,满足大数据分析、开发的需求,性能高、高效二级索引方案,数据监控颗粒度细。用户只需要提交作业,就能获得结果,无需考虑存储容量以及运算瓶颈,腾讯云将全方位解决。
云数据库PostgreSQL:基于业界知名的、可以与商业数据库Oracle媲美的开源数据库PostgreSQL,腾讯云通过优化使得性能比开源版本提升十倍,最大QPS可达10万。同时下半年腾讯云还会推出更为强大的分布式PostgreSQL。
分布式数据库TDSQL:企业级云数据库,能够满足大量的大数据使用场景,目前微众银行、微信支付、安心保险等等金融产品都是采用TDSQL,有着雄厚实力。
二,云数据库正在大数据的风口之上
越来越多的企业正在接入互联网,面临着大数据增长的难题。在去年9月国务院正式发布了《国务院关于印发促进大数据发展行动纲要的通知》,这意味着大数据开始受到国家层面的重视。在今年5月举办的中国大数据产业峰会上,马化腾提出了利用大数据“共建云中大数据生态”的理念,因此腾讯也背负着建立云端数据的责任,而腾讯云的使命不小。
云数据库则是大数据存放的关键,是整个大数据战略重中之重,而未来的以下企业将会需要腾讯云数据库的帮助。
1)尚未完全接入互联网的企业,事实上很多传统行业都具备着较强的IT意识,并且在最初就建立起了自己的计算机数据管理,最典型的就是金融行业,在早期信息化帮助其提升了效率,但是后期的金融行业却无法让这些数据得以有效利用,而腾讯云数据库则可以极好的满足这点,微众银行、微信支付都已经做出了出色的案例。
2)已经接入互联网的企业,很多接入互联网的企业也在面临一个问题,在早期没有腾讯云这样优质的云服务商,因此他们需要自建服务器,并且自己承担起各种昂贵IT设施维护成本,并且需要配备一群高工资的高级工程才能够进行大数据的利用。
但腾讯云则可以帮助这类企业实现彻底的解放,企业不再需要自己搭建任何设备、配置任何环境,企业只需要将数据托付于腾讯云就可以完成以前高代价的事情,而腾讯云除了大数据处理技术之外,还拥有各种服务器、安全防护、视频解决方案、游戏解决方案等等顶级成熟技术方案,直接帮助企业完成“云端生态”的转型与跨越。
3)新兴创业互联网公司,其天然需要托管自己产品的数据,而初创公司众所周知不仅缺少技术能力,还在资金方面捉襟见肘,而腾讯云则不仅可以帮助其管理好数据,还可以在安全、弹性扩容各方面对其进行全方位的保障,并且价格也极为低廉,是创业者的最大福音。
三,腾讯全面开放自身技术,全社会在享受福利
马化腾此前在今年5月举办的中国大数据产业峰会表示,腾讯数据中心的储存量已经超过1000PB数据,并持续以每天500TB速度飞速上升,而腾讯愿意将这些积累开放给更多的合作伙伴。
腾讯云一直对外表示基于腾讯18年技术和经验积累后的全面开放技术,这里来看看这次腾讯云究竟开放哪些腾讯核心技术:
此次推出的分布式数据库TDSQL,在腾讯核心计费系统使用了超过10年时间,一直应用于腾讯充值、米大师等腾讯核心业务;也已经将其应用到了外部安心保险、泛华保险、微众银行、汇通天下等金融、物联网领域。由于其针对金融业务设计,除了满足云数据库的弹性、自动化运维、高性价比以外,还支持两地三中心架构,拥有金融级高可用、数据强一致、金融级的安全要求;相关项目都通过了监管部门的信息安全审核。
值得一提的是,此次腾讯云推出的云数据库PostgreSQL,选用的是腾讯自研PostgreSQL内核,在腾讯内全面应用超过5年,包括微信支付、财付通、广点通、大数据处理平台的核心系统都在使用腾讯自研PostgreSQL。
根据笔者了解,腾讯内部的大数据集群有近万台设备,所有元数据都存储于腾讯自研PostgreSQL;月计算数据量超过300PB,99%的请求1秒内响应。而这些成绩的背后,全部是因为有腾讯自研的PostgreSQL的技术实力作为后盾支撑。
而腾讯云开放的云数据库PostgreSQL除了满足云数据库的弹性、自动化运维、高性价比以外,还优化了多个关键内核,且支持两地三中心架构,高可用方案,超高计算性能。
腾讯能够将涉及计费的核心技术的TDSQL、超过5年的自研PostgreSQL向社会开放,充分体现了其开放共享的心态,其正在利用腾讯云积极推进中国的大数据建设,也是属于全社会的福利。
结语:
腾讯云此次推出的五款云数据产品,暗合着大数据蓬勃发展的趋势,而腾讯正在全面开放自己的技术,将自己的多年积累与整个社会共享。传统企业、创业者们都应当抓住机遇,站在巨人的肩膀上,利用腾讯云的开放,来迅速完成自己在大数据时代的转型与创业。
更关注产品与技术的微信公众号:“首席发言者”
hbase数据库是关系型数据库吗
Hive 存储格式和关系型数据库之间进行导入导出
最近更新时间:2020-09-29 15:54:18
前往 GitHub 编辑
我的收藏
本页目录:
1. 开发准备
2. 将关系型数据库导入到 Hive 中
3. 将 Hive 导入到关系型数据库中
使用 HDFS 中的 Hive 数据
使用 Hcatalog 进行导入
4. 将 orc 格式的 Hive 表格导入到关系型数据库中
本文介绍了使用腾讯云 Sqoop 服务将数据在 MySQL 和 Hive 之间相互导入导出的方法。
1. 开发准备
确认已开通腾讯云,并且创建了一个 EMR 集群。在创建 EMR 集群的时候需要在软件配置界面选择 Sqoop,Hive 组件。
Sqoop 等相关软件安装在路径 EMR 云服务器的/usr/local/service/路径下。
2. 将关系型数据库导入到 Hive 中
本节将继续使用上一节的用例。
进入 EMR 控制台,复制目标集群的实例 ID,即集群的名字。再进入关系型数据库控制台,使用 Ctrl+F 进行搜索,找到集群对应的 MySQL 数据库,查看该数据库的内网地址 $mysqlIP。
登录 EMR 集群中的任意机器,最好是登录到 Master 节点。登录 EMR 的方式请参考 登录 Linux 实例。这里我们可以选择使用 WebShell 登录。单击对应云服务器右侧的登录,进入登录界面,用户名默认为 root,密码为创建 EMR 时用户自己输入的密码。输入正确后,即可进入命令行界面。
在 EMR 命令行先使用以下指令切换到 Hadoop 用户,并进入 Hive 文件夹:
[root@172 ~]# su hadoop[hadoop@172 ~]# cd /usr/local/service/hive
新建一个 Hive 数据库:
[hadoop@172 hive]$ hive
hive create database hive_from_sqoop;
OK
Time taken: 0.167 seconds
使用 sqoop-import 命令把上一节中创建的 MySQL 数据库导入到 Hive 中:
[hadoop@172 hive]# cd /usr/local/service/sqoop
[hadoop@172 sqoop]$ bin/sqoop-import --connect jdbc:mysql://$mysqlIP/test --username root -P --table sqoop_test_back --hive-database hive_from_sqoop --hive-import --hive-table hive_from_sqoop
$mysqlIP:腾讯云关系型数据库(CDB)的内网地址。
test:MySQL 数据库名称。
--table:要导出的 MySQL 表名。
--hive-database:Hive 数据库名。
--hive-table:导入的 Hive 表名。
执行指令需要输入您的 MySQL 密码,默认为您创建 EMR 集群时设置的密码。执行成功后,可以在 Hive 中查看导入的数据库:
hive select * from hive_from_sqoop;OK1 first 2018-07-03 16:07:46.0 spark2 second 2018-07-03 15:30:57.0 mr3 third 2018-07-03 15:31:07.0 yarn4 forth 2018-07-03 15:39:38.0 hbase5 fifth 2018-07-03 16:02:29.0 hive6 sixth 2018-07-03 16:09:58.0 sqoopTime taken: 1.245 seconds, Fetched: 6 row(s)
3. 将 Hive 导入到关系型数据库中
Sqoop 支持将 Hive 表中的数据导入到关系型数据库中。先在 Hive 中创建新表并导入数据。
登录 EMR 集群中的任意机器,最好是登录到 Master 节点。在 EMR 命令行先使用以下指令切换到 Hadoop 用户,并进入 Hive 文件夹:
[root@172 ~]# su hadoop[hadoop@172 ~]# cd /usr/local/service/hive
新建一个 bash 脚本文件 gen_data.sh,在其中添加以下代码:
#!/bin/bashMAXROW=1000000 #指定生成数据行数for((i = 0; i $MAXROW; i++))do echo $RANDOM, \"$RANDOM\"done
并按如下方式执行:
[hadoop@172 hive]$ ./gen_data.sh hive_test.data
这个脚本文件会生成1,000,000个随机数对,并且保存到文件 hive_test.data 中。
使用如下指令把生成的测试数据先上传到 HDFS 中:
[hadoop@172 hive]$ hdfs dfs -put ./hive_test.data /$hdfspath
其中 $hdfspath 为 HDFS 上的您存放文件的路径。
连接 Hive 并创建测试表:
[hadoop@172 hive]$ bin/hivehive create database hive_to_sqoop; #创建数据库 hive_to_sqoopOK
Time taken: 0.176 secondshive use hive_to_sqoop; #切换数据库OK
Time taken: 0.176 secondshive create table hive_test (a int, b string)hive ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';#创建数据表 hive_test, 并指定列分割符为’,’
OK
Time taken: 0.204 secondshive load data inpath "/$hdfspath/hive_test.data" into table hive_test; #导入数据
$hdfspath 为 HDFS 上的您存放文件的路径。
成功后可使用quit命令退出 Hive 数据仓库。连接关系型数据库并创建对应的表格:
[hadoop@172 hive]$ mysql -h $mysqlIP –p
Enter password:
其中 $mysqlIP 为该数据库的内网地址,密码为您创建集群时设置的密码。
在 MySQL 中创建一个名为 test 的表格,MySQL 中的表字段名字和 Hive 中的表字段名字必须完全一致:
mysql create table table_from_hive (a int,b varchar(255));
成功创建表格后即可退出 MySQL。
使用 Sqoop 把 Hive 数据仓库中的数据导入到关系型数据库中有两种方法,可以直接使用 HDFS 存储的 Hive 数据,也可以使用 Hcatalog 来进行数据的导入。
使用 HDFS 中的 Hive 数据
切换进入 Sqoop 文件夹,然后使用以下指令把 Hive 数据库中的数据导出到关系型数据库中:
[hadoop@172 hive]$ cd ../sqoop/bin
[hadoop@172 bin]$ ./sqoop-export --connect jdbc:mysql://$mysqlIP/test --username root -P
--table table_from_hive --export-dir /usr/hive/warehouse/hive_to_sqoop.db/hive_test
其中 $mysqlIP 为您的关系型数据库的内网 IP 地址,test 为关系型数据库中的数据库名,--table 后跟的参数为您的关系型数据库的表名,--export-dir 后跟的参数为 Hive 表中的数据在 HDFS 中存储的位置。
使用 Hcatalog 进行导入
切换进入 Sqoop 文件夹,然后使用以下指令把 Hive 数据库中的数据导出到关系型数据库中:
[hadoop@172 hive]$ cd ../sqoop/bin
[hadoop@172 bin]$ ./sqoop-export --connect jdbc:mysql://$mysqlIP/test --username root -P
--table table_from_hive --hcatalog-database hive_to_sqoop --hcatalog-table hive_test
其中 $mysqlIP 为您的关系型数据库的内网 IP 地址,test 为关系型数据库中的数据库名,--table 后跟的参数为您的关系型数据库的表名,--hcatalog-database 后面跟的参数是要导出的 Hive 表所在的数据库的名称,--hcatalog-table 后面跟的参数是要 Hive 中要导出的表的名称。
操作完成后可以进入关系型数据库查看是否导入成功:
[hadoop@172 hive]$ mysql -h $mysqlIP –p #连接 MySQLEnter password:mysql use test;
Database changed
mysql select count(*) from table_from_hive; #现在表中有1000000条数据+----------+| count(*) |+----------+| 1000000 |+----------+1 row in set (0.03 sec)
mysql select * from table_from_hive limit 10; #查看表中前10条记录+-------+----------+| a | b |
+-------+----------+
| 28523 | "3394" || 31065 | "24583" |
| 399 | "23629" || 18779 | "8377" |
| 25376 | "30798" || 20234 | "22048" |
| 30744 | "32753" || 21423 | "6117" |
| 26867 | "16787" || 18526 | "5856" |
+-------+----------+
10 rows in set (0.00 sec)
更多关于 sqoop-export 命令的参数可以通过如下命令查看:
[hadoop@172 bin]$ ./sqoop-export --help
4. 将 orc 格式的 Hive 表格导入到关系型数据库中
做世界云计算的“两极”,阿里云如何跨过“企业关”?
时至今日,中国公有云的第一梯队已经基本形成——阿里云、腾讯云和金山云,据IDC调研预计,中国公有云市场规模到2018年将达到20亿美元,在企业业务、设备、服务数据化之后,国内将迎来云计算行业爆发的关键点。
今天,我们就来讲讲国内公有云第一梯队成员——腾讯云的故事。腾讯云2013年正式进入云计算市场,如今已然能够支持192个业务场景的全栈解决方案,在云时代的大背景下,极有可能会成为“腾讯下一个增长点”的生力军。
011年,陈龙加入腾讯云,并担任腾讯云托管hadoop服务平台(EMR)技术负责人,负责EMR的技术开发和产品建设。弹性MapReduce (EMR)是结合云技术和 Hadoop、Hive、Spark、Storm 等社区开源技术,为客户提供安全、低成本、高可靠、可弹性伸缩的云端托管 Hadoop 服务。
作为EMR的技术负责人陈龙表示在整个EMR的设计和实现过程中遇到的最大困难就是云数据库hbase虚拟机网络和物理网络适配的问题。如何解决呢?他们采取的方法是修改并扩展了hbase的通信协议以实现虚拟机网络和物理网络互通。
EMR实现了在计算存储分离、计算资源弹性、组件服务化等诸多方面的技术创新,为腾讯云基础设施IAAS以及云存储COS、云硬盘等带来了业务增长。据悉,EMR团队下一个研究方向就是EMR自服务。
EMR团队充分利用了云的弹性能力以及服务化的云存储能力快速帮助用户生产出大数据分析平台,通过计算资源弹性降低企业的设备成本,通过服务化和自服务降低企业的运维成本,通过服务化的大数据平台降低企业的技术成本。
云计算仍处于初级阶段,我辈仍需努力
今年是云计算发展进入的第二个十年,在首个十年中云计算经历了从0到1的小时代。步入2017,中国云计算发展进入了什么阶段呢?陈龙认为目前国内仍处于云计算初级阶段,上云客户主要集中在互联网、游戏等一些新兴行业,对于像汽车、金融等传统行业还需继续渗透。
那么在整个国内的云计算市场中,腾讯云扮演着什么样的角色呢?腾讯公司副总裁、腾讯云总裁邱跃鹏表示腾讯云要做信息高速公路的“修路者”,修建一条连接到智能未来的信息高速公路。
虽然腾讯云入局不算太早,但是目前国内业务量每年都在翻倍增长。陈龙表示:先入局者虽然有先发优势,但是针对企业服务的云计算更看重产品,只要你产品足够好,服务足够到位,足够解决企业痛点,企业自然就会选择,后发优势也不可谓不存在。
展望未来,陈龙认为云计算会朝着服务化和智能化方向发展,一切都会以服务的形式存在于云端,服务化的计算、服务化的存储、服务化的网络、服务化的大数据、服务化的人工智能,这些服务会让企业像生活中使用水电一样使用云。
写在最后
随着IT架构的不断演进,云计算必定会成为未来所有IT应用的基石。2017年第九届系统架构师以“云智未来”为主题,盛邀百余位国内外顶级专家与大家一起进行技术探讨和价值发现。
届时,腾讯云托管hadoop服务平台(EMR)技术负责人陈龙将和大家一起探讨《云+时代大数据平台方案》,大数据如何高效利用云计算的海量计算资源,如何利用云的弹性以达到降低成本,实现数据价值最大化和成本最小化,大数据服务化又是如何让所有企业都享受到大数据和云计算的红利。
腾讯大数据sre面经
腾讯的面试流程慢是出了名的,技术面一共三面加hr面总共4面,历时一个半月,倘若要想拿到offer还得加上两周,差不多2个月时间,所以各位有志去鹅厂的同学们一定不要裸辞,不要裸辞,不要裸辞(重要的事情说三遍)。
20210301简历投递(内推)-- 20210310一面(小组长) -- 20210322二面(二线老板)--20210328(GM面)-- 20210404(HR面)
hdfs各个组件(hdfs,yarn,zkfc,journalnode)的作用,namenode ha实现方式
hbase读写流程,常用api
flink架构,任务提交流程,flink的checkpoint,flink实现excatly once(内部与端到端)
clickhouse架构,为什么比其他olap引擎快,sql解析流程
linux为什么叫文件系统,ceph文件系统,常用的bash命令,比如awk等
java相关:jvm架构,gc方法(对比),线程创建的三种方式,synchornized和lock的区别,各自的应用场景,skipList跳表,hashmap
谈项目,讲数据链路(实时与批处理数据),数据规模,数据流量ops这些
kafa如何保证数据一致性(source,broker,sink三个地方)
yarn调度策略,资源管理如何做,权限怎么分配
hdfs小文件问题,hive产生了小文件如何调优,hive数据倾斜原因以及处理方法
针对集群做了哪些优化,调整了哪些参数
简单介绍做过的项目,然后挑一个项目,你担任的角色是这样,主要流程是怎样,产出有哪些,在这过程中遇到了哪些问题,如何解决,你的成长是什么。
另外问了个在职业生涯中遇到的最大事故是什么,当时是如何去解决的,定位问题的方式是怎样,以及后续如何去避免这样的事故
最后瞎聊了下腾讯云的大数据sre团队发展情况,以及员工成长路线,以及base地的transform。
简单个人介绍包括学历背景,工作经历,以及每段跳槽原因,挑一段工作项目详细讲解(虽然她也不一定听得懂,我猜测主要考察表达能力),然后是讲讲对大数据sre岗位的理解,期望薪资,目前竞企offer情况,最后明确告知期望薪资涨幅较大,不会在竞企offer上做大幅调整,最多持平,且具体的方案最快也要一周半才能出来。所以最后还是放弃了鹅厂入职了虾皮。
总的来说,腾讯云的大数据sre面试也是偏基础且贴近个人工作内容,假如小伙伴们平时注重积累的话,去腾讯问题不大。最后预祝跑路的同学们都能拿到理想的offer!
(shopee最近很缺人哦,有想法的同学可查看: ;mid=2247483747idx=1sn=aaf8361ca6fbd47245fd0c92d274eb85chksm=c24ed360f5395a76af2dba45e814bf5cd1d39b739deff18584753d677f96945ef7a6b552ea14token=90945026lang=zh_CN#rd )
发表评论
暂时没有评论,来抢沙发吧~