阿里云孙i(阿里云孙中元)
本文目录一览:
大繁至简,首度揭秘阿里云飞天洛神系统
摘要: 洛神是阿里云飞天中负责虚拟网络的系统,她为阿里云客户提供了丰富的网络产品,如VPC、SLB等。同时,她也是ECS,RDS,OSS,NAS等100多个云产品的网络基础设施。她还支撑了阿里巴巴集团和蚂蚁金服集团众多业务,如电商、支付、物流等。
“最好的网络就像神一样,无处不在,又感知不到她的存在 …… 大繁至简,这是我们努力的方向。” – 阿里云网络高级技术专家 孙成浩
2018杭州·云栖大会的主会场上,阿里云产品总监何云飞介绍了阿里云自主研发的云操作系统飞天的全面升级版飞天2.0。作为飞天2.0核心组成部分之一,洛神首次向外界揭开了她神秘的面纱。在随后的未来网络技术专场上,阿里云网络高级技术专家孙成浩对飞天洛神进行了更为详细的阐述。本文是首次对飞天洛神的概念、演进、架构、特点等方面进行系统化的解读。
什么是飞天洛神
从物理网络到用户感知到的网络之间存在一个虚拟网络层。在阿里云,我们给这套虚拟网络系统起了个名字,叫做洛神。洛神是阿里云飞天中负责虚拟网络的系统,她为阿里云客户提供了丰富的网络产品,如VPC、SLB等。同时,她也是ECS,RDS,OSS,NAS等100多个云产品的网络基础设施。她还支撑了阿里巴巴集团和蚂蚁金服集团众多业务,如电商、支付、物流等。在全球范围内,洛神服务着百行百业超过百万的用户。在双十一、世界杯、春运等互联网流量的尖峰时刻,为每一个消费者的流畅网络体验而默默保驾护航。
很多人都知道阿里云有一个飞天(Apsara)系统,系统中各组件是用各种神的名字命名的,包括盘古,伏羲,女娲,神农等,其中盘古是分布式文件系统,伏羲是分布式调度系统。为什么叫虚拟网络系统叫洛神呢?兄余在古代,河运是非常重要的交通手段,就好比今天的网络一样。因此,在给虚拟网络系统起名的时候,我们就起了一个河神的名字,叫洛神。
飞天洛神的架构
洛神是阿里云的分布式操作系统飞天的一部分。在飞天的基础架构里面,最上层是各种云产品,包括大家熟悉的云产品RDS,ECS,VPC,SLB等等,支撑这些是飞天的3个基础组件,包括存储系统盘古,资源管理伏羲和网络管理洛神。也就是说,洛神除了支撑了阿里云的网络云产品之外,另外一个重要的角色就是支撑了其他云产品的网络基础设施。
讲到洛神的技术架构,洛神系统由3大模块组成
– 数据平面,控制平面和管理平面。
数据平面负责云网络中数据包的处理,它就如同物理世界中的网线和路由交换设备,把数据包高效率低延迟的从发送端送到目的地。类似的,洛神数据平面也包含各种不同角色的组件,包括支持各种不同类型计算形态的虚拟交换机,用于数据中心互连的DCN网关,用于云网络连接公网的internet网关,用于云上云下互连的混合云网关,提供负载均衡能力的负载均衡网关和提供端接入能力的智能接入网关。为了提高这些组件的转发性能,洛神不仅使用了软转发的技术,而且也对软硬件结合甚至纯硬件的技术进行了广泛应用。
控制平面则控制如何处理数据包,他是洛神的业务大脑。从技术上看,洛神的控制平面是一个层次性的分布式控制系统,最底层的设备控制器主要此尘好负责控制和管理数据平面的各种组件,同时在每个区域存在一个虚拟网络控制器,在全局存在一个全球路由控制器。区域的虚拟网络控制器则负责本区域的云网络的管理与调度, 全局路由控制器则负责协调调度各个区域的资源形成一张全球的云网络。基于虚拟网络控制器和全局路由控制器之上的则是NFV控制器,完成虚拟网络高级功能例如VPN等产品的编排和抽象。
洛神的管理平面是网络运维和运营的中枢,它管理着海量的网元以及用户,这里的海量指的是千万级虚拟机和百万级网元。为了能做到这一点,洛神的管理平台是基于大数据以及机器学习技术实现的,它对网络运行当中产生的海量数据进行实时/离线计算,数据建模,来驱动网络资源的提前森铅规划,网络系统的日常维护以及网络产品的智能运营。整个管理平面包括了一套高性能,分布式的数据分析系统,由它分析出来的数据提供给智能运维和智能运营系统,完成资源规划,网络建设,系统变更,实时监控,故障逃逸,产品运营等整个网络产品生命周期的工作。最终达到排无人值守的网络变更,先于用户的问题发现,高效简单的故障逃逸以及丰富全面的产品及用户运营的效果。
飞天洛神的技术演进之路
洛神能够成为飞天的四大支柱之一,不是一天炼成的。洛神的演进经历了四个阶段。
首先是经典网络阶段,在这个阶段,网络只有一个概念,就是公网带宽。经典网络阶段的问题是用户无法自定义网络拓扑,这样使得用户无法完成云上云下的混合云联通。为了解决这个问题,洛神进入了VPC阶段,VPC阶段里,洛神在每个地域虚拟了数百万张网络,并且用户可以完全自定义这张网络。随着网络规模越来越大,洛神也从区域网络进入到全球网络的阶段,在这个阶段,洛神主要解决如何更好的管理超大规模网络的问题,云企业网和云连接网构成了第三代洛神的两个主要特性。
满足了主要的客户的需求之后,我们开始思考如何进一步提升用户体验。用户对网络的核心诉求是什么?其实,客户的最大诉求是网络足够强健可靠,不要发生问题。就像使用水和电一样,用户是不需要了解发电站和泵站在哪里的。因此,洛神希望网络对用户是无感知的,又是无处不在的。洛神的发展,是一个从0到1,到100,再回到0的演进过程,大繁至简,这是我们在研发下一代洛神中努力的方向,这也是我们首先在业界提出Networkless理念背后的思考。
飞天洛神的特点
洛神的关键特点,包含安全,弹性和可靠,这3个特性也是洛神达到最终Networkless状态的关键特征。
安全是基本盘,因为overlay技术把网络逻辑的隔离掉,用户的网络之前完全不会互通。并且洛神中还包含了各种加密服务可以给到用户,打造更深层次的的安全。弹性有两个数字,一个是秒级的转发性能的弹性,洛神支持从1MB到1TB在一秒内完成弹性,另一个是规模的弹性,洛神的单网络支持10w台计算节点的规模。这样,洛神既可以支持小到虚拟web主机这样的服务,也可以支持打到双11零点这样的海量峰值流量。谈到可靠性,我们参考年平均故障时间这个参数,洛神引发的单实例故障时间只有50ms,这个故障时间是极其短的。
关键设计
接下来我们详细分析下洛神弹性和可靠性的关键设计。洛神系统的数据面,本身就是一台巨大的交换机。大家都知道,交换机的转发芯片对数据包的处理,都是pipeline的,硬件处理永远不会停下来,那洛神的数据面也是如此。从一个数据包进入洛神系统开始,到出去洛神系统的整个过程,经历了洛神系统里面的各个组件,都是不会被打断的,这样只处理一件事情的数据面,一定是高效的。洛神的数据面包含了软硬件结合的转发技术和架构。此外,洛神系统的网络永远不会因为维护而中断,这意味着,洛神里面的所有组件,都支持热升级。
在可靠性角度上看,多机房容灾是高可用的基础。当阿里云的某一个数据中心云机房开始部署的时候,洛神系统在物理设施部署完成之后会首先进行部署。这个时候,机房里面有计算集群,网关和控制平台。计算集群上面有我们的虚拟交换机组件。对于数据面和控制面的关键结点都是集群部署的,单台服务结点的问题不会对用户产生任何的影响。当vm的宿主机出现宕机等严重问题的时候,可以在机房范围内进行迁移,迁移本身也不会对vm的网络属性和连通性产生任何的影响。每个云机房里面都会部署集群的网关和控制器结点,而且随着机房的增多,会自动在云机房里面形成环形的备份关系。当一个新的机房建设起来,洛神系统部署之后,会自动加入到这个备份链里面。这样,当某一个机房的关键结点由于异常出现问题的时候,都可以自动在秒级切换到备份机房,由备份机房的洛神系统来提供服务。这种多层次容灾机制,保证用户可以在很快的时间内恢复业务。
除了多机房容灾之外,如何快速发现bug和快速恢复,是可靠性的另一个关键点。为了解决这个问题,洛神首先设计了基于流的染色系统。如果把洛神系统看成一个整体的交换机,那么从特性上来看,洛神系统是一个支持流跟踪的交换机,具有各种丰富的策略。洛神系统的下面是物理网络的设备和交换机,通过洛神系统的流标记的能力和设定的策略,可以同时在物理网络和虚拟网络里面具备流的染色,特定报文的镜像,采样,跟踪等的能力。这些动作产生的日志,都会通过采集后做实时计算,如果流量有异常,会产生报警和日志给到管理员,部分报警可以触发故障的自动处理和恢复。还有一部分数据经过计算处理,会产生数据报表和用户画像,也可以给到用户一张炫酷的大屏。这个本质上就是数据化的能力。
结束语
飞天洛神的使命是让网络更简单。大家都知道AWS提出了Serverless的概念,和Serverless类似,洛神以Networkless的理念作为设计目标,我们希望用户不再去关心网络拓扑,网络带宽,网络地址这些专业技术,让用户感知不到网络的存在。Networkless首先是通过不断的提高弹性和网络的可靠性来达到的,除此之外的关键特性就是NAAS化,让用户只关心网络通,而不需要去关心网络各种组件。
阿里云,腾讯云,亚马逊云,微软云这四个和云上贵州有什么区别
区别历乎如下:
云上贵州,全称云上贵州大数据产业发展有限公司,是位于贵阳国家高新技术产业开发区的国有企业,成立于2014年11月,由贵州省经济和信息化委员会持股,是贵州省人民政府肢胡悉和阿里巴巴集团的重点合作项目。
云上贵州由贵州省国资委派驻监事会进行监管,云上贵州是公有的政府成立做缺,其他的全是个人创办,而且时间较早。
2018年6月,云上贵州牵手中国电信天翼云为iCloud提供云存储服务,签署《基础设施协议》。
阿里云创富平台怎么样?
还行的!我刚进入阿里云创富平台的高级会员,里面的教程很实战,有不懂的问孙老师,他也很客气!
加速新冠疫苗研发,阿里云免费开放一切AI算力
自从阿里云宣布向全球公共科研机构免费开放一切AI算力后,何万青博士就进入了连轴转状态,经常工作到凌晨。作为阿里云高性能计算团队负责人前塌,他要对接大量科研机构、高校院所以及化学、生物医学专家的需求。
这些机构和专家,在这个特殊的阶段,都是想快捷利用阿里云的超大规模算力,来缩短药物研发周期,以尽早让相关的疫苗、特效药上市,控制住新型冠状病毒感染肺炎疫情。
在免费开放算力之前,阿里云的超大规模算力早就服务于多家生物医药机构和专家,一个典型代表就是全球 健康 药物研发中心GHDDI。
GHDDI是由盖茨基金会、清华大学和北京市政府三方联合成立的公共卫生与药物创新机构。主要为建设新药研发和转化的创新平台,加强医药研究和开发。
2017年,GHDDI成立的第二年,阿里云就开始为GHDDI的各类新药研发、化合物筛选等提供算力支持。
在新型冠状病毒感染肺炎疫情发生后,GHDDI也在1月27日上线了“一站式科研数据与信息共享平台”,这是慧颤圆一个基于阿里云的药物研发和大数据平台,主要功能有四个:
针对SARS/MERS等冠状病毒的 历史 药物研发进行数据挖掘与集成;
开放相关临床前和临床数据资源;
计算靶点和药物分子性质;
跟进新型冠状病毒最新科研动态,实时向科学界和公众公布,为新型冠状病毒科学研究提供重要数据支撑。
很多人会有疑问,药物研发属于生物医学领域,超大规模算力属于计算机科学领域,为什么药物研发要用到超大规模算力?而且GHDDI宣布上线研发平台以及阿里云宣布免费提供相关算力后,为什么众多机构和专家趋之若鹜?
何万青博士说,这跟药物研发的流程不无关系。
通常一款药物的研发,始于病毒的“毒株分离”,然后进行测序分析;找到病毒的靶点进行识别和验证;寻找对应化合物;合成先导化合物;评估研究和动物实验;制剂合成;临床试验以及上市等步骤。
说起来很简单,实际上新药研发却是个费钱费力更费时间的过程,数据显示,在美国研发一种新药,从项目启动到被FDA(美国食品药品监督管理局)批准上市,平均需要花费10-15年的时间,耗资超过13亿美元。
目前,针对新型冠状病毒疫苗和新药的研究,已经完成了“毒株分离”的“湿实验”,“基因测序”工作也已经结束,接下来就要了“干实验”阶段。“干实验”阶段,涵盖对病毒靶点进行识别和验证、寻找对应化合物等过程。
可以这么理解,生物医药领域的“湿实验”,主要是在实验室里的研究工作,“干实验”就要靠超大规模算力帮忙。
何万青博士解释,“特别是寻找对应化合物,一定要调用超大规模算力,因为可供制成药物的化合物有5000-15000种。要先从庞杂的化合物中找到针对病毒合适的‘进攻方向’,再进行合成和拼接,如果都要从实验室里一一比对,那就太浪费时间了。”
然而云计算可以解决这些耗时的环节。
例如与阿里云合作的全球 健康 药物研发中心GHDDI,具备了上千种化合物的数据库,这洞隐些化合物的性质、药效也都已经掌握,通过计算机模拟,可以加快找到遏制新型冠状病毒对应化合物的速度。
特别重要的是,面对人类共同的敌人-病毒,公共科研机构更需要无需排队,随时可以得到弹性伸缩、数据交流和发布更加方便的协同环境。
“在全国人民为配合切断病毒传染途经而自我隔离的情况下,阿里云弹性高性能计算EHPC平台和超级计算集群SCC恰好解决这个燃眉之急。这也印证了阿里的一句土话‘此时此刻,非我莫属’。”何博士说。
但是,就算通过云计算找到了对应化合物,按照流程还要进行“先导化合物合成”、“动物实验”、“临床实验”等一大堆繁琐的步骤,药物和疫苗研发的速度,极有可能赶不上疫情发展的周期。
换句话说,就是没等新药研发出来,疫情就已经结束了。
好在针对新型冠状病毒新药和疫苗的研发,还有一条路可以选,“老药新用”。
“老药新用”指的不仅仅是药物,还可以是相关的治疗经验。
此前类似的SARS/MERS等疫情爆发后,医学界留有大量的 历史 药物研发以及临床数据,还有很多医学文献散落全球各地,这些都可能成为这次新型冠状病毒治疗突破口。
调用筛选医学文献,分析 历史 数据时,超大规模算力也会派上大用场。
比如GHDDI在上线研发平台就表示,目前研发平台已经涵盖既往冠状病毒相关研究中涉及的900多个小分子在不同阶段的相关实验信息,“希望科研界能参与提炼有用信息并得到帮助或启示”。
何博士感慨,“有了超大规模算力的帮助,在‘军情紧急’的情况下,也不用完全从‘0’开始了。”
而GHDDI上线研发平台后,也致谢阿里云团队协助部署后端并提供计算资源。
何万青博士团队中还有很多技术专家,比如孙相征和余洋等人,目前的工作就是对接GHDDI以及各类科研机构、专家们的需求。
这些计算机科学领域的大牛说,他们并不是医学专业出身,能做的只是为研究人员提供算力保障、优化技术支持和应用答疑等“后勤工作”,让科学家能够专注于学科本身的科研突破,而无需耗费太多精力去学习“交叉学科”的计算技术,但是他们看到了越来越多的生物医学专家加入了进来,感受到了“很强的使命感”,大家都在用自己的绵薄之力,加速对新型冠状病毒的研究以及相关药物、疫苗的研发。
发表评论
暂时没有评论,来抢沙发吧~