阿里云虚拟gpu(阿里云虚拟电话)
155
2023-02-12
本文目录一览:
阿里云GPU云服务器适用于视频转码、图片渲染、AI训练、AI推理、云端图形工作站等场景。
vgn6i和gn6i均采用基于Turing架构的NVIDIA Tesla T4 GPU加速器,具有极佳的图形计算能力。vgn6i提供分片虚拟化后的虚拟GPU,支持T4 GPU计算能力的1/2、1/4、1/8,并提供极佳的3D图像渲染能力,适用于云游戏、云网吧等场景。
阿里云虚拟主机管理是通过云服务器(Elastic Compute Service,简称ECS)来实现的。
云服务器是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别云计算服务。
使用阿里云虚拟主机管理,将拥有以下优势的计算机资源。
1、无需自建机房,无需采购以及配置硬件设施。
2、分钟级交付,快速部署,缩短应用上线周期。
3、快速接入部署在全球范围内的数据中心和BGP机房。
4、成本透明,按需使用,支持根据业务波动随时扩展和释放资源。
5、提供GPU和FPGA等异构计算服务器、弹性裸金属服务器以及通用的x86架构服务器。
6、支持通过内网访问其他阿里云服务,形成丰富的行业解决方案,降低公网流量成本。
7、提供虚拟防火墙、角色权限控制、内网隔离、防病毒攻击及流量监控等多重安全方案。
8、提供性能监控框架和主动运维体系。
9、提供行业通用标准API,提高易用性和适用性。
小鹏汽车与阿里云联合建成自动驾驶智算中心
小鹏汽车与阿里云联合建成自动驾驶智算中心,该智算中心由小鹏汽车与阿里云在乌兰察布合建,算力可达600PFLOPS(每秒浮点运算60亿亿次),小鹏汽车与阿里云联合建成自动驾驶智算中心。
小鹏汽车与阿里云联合建成自动驾驶智算中心1
8 月 2 日,小鹏汽车与阿里云共同宣布在内蒙古乌兰察布建成中国最大的自动驾驶智算中心 " 扶摇 ",用于自动驾驶模型训练。
" 扶摇 " 基于阿里云智能计算平台,算力可达 600PFLOPS(每秒浮点运算 60 亿亿次),将小鹏汽车自动驾驶核心模型的训练速度提升了近 170 倍,并且未来还具备 10~100 倍的算力提升空间。双方表示,模型训练速度的大幅提升,将有力推动自动驾驶技术的发展,让汽车的智能化程度和安全性都迈入新的阶段。
同时," 扶摇 " 结合乌兰察布当地天然的气候优势,采用风冷、AI 调温、模块化设计等绿色技术,可实现全年超过 80% 时间全新风运行,年平均 PUE(PUE 指数据中心能耗电力电源使用效率,越接近 1,表明数据中心对电能的利用效率越高,越绿色)小于 1.2。目前," 扶摇 " 正用于小鹏城市 NGP 智能导航辅助驾驶的算法模型训练。
凭借地理位置带来的能源、气候等区位优势,乌兰察布是中国数据中心产业联盟评选为最适合发展数据中心的地区,也是全国一体化算力网络枢纽节点之一。目前有华为、阿里、苹果等 26 个数据中心项目落地在此,总计有 419 万台服务器。
整体来看,今年 1-7 月,小鹏汽车累计交付超过 8 万台,为去年同期的 2.1 倍。自交付以来,小鹏汽车历史累计交付量已接近 22 万台。
此外,小鹏汽车首款面向全球的智能旗舰 SUV小鹏 G9 将于 8 月开放预订,并于 9 月正式上市。
小鹏汽车与阿里云联合建成自动驾驶智算中心2
8月2日,“东数西算”内蒙古枢纽节点中国最大的自动驾驶智算中心建成。该智算中心由小鹏汽车与阿里云在乌兰察布合建,算力可达600PFLOPS(每秒浮点运算60亿亿次),用于小鹏汽车的自动驾驶模型训练。“草原云谷”乌兰察布也迎来首座智算中心。
“东数西算”工程是实现算力规模化、集约化和绿色化的全国一体化布局。西部地区通过承接东部算力需求,像“南水北调”“西电东送”一样优化算力资源配置,提升算力资源使用效率。
位于内蒙古的.乌兰察布就在八大国家算力枢纽节点上。依托独特的区位优势和气候优势,包括阿里巴巴、苹果在内的12大数据中心已落户乌兰察布。这里也因此被称为“草原云谷”。
随着人工智能应用的井喷式发展,专用于智能计算的智算成为发展最快的一种算力形式。智算因其“专用性”,在面向AI场景时性能和能耗更优。据工信部统计,目前我国已建和在建的智算中心有20余座,遍布甘肃、京津冀、长三角、粤港澳大湾区、成渝等国家算力枢纽。
为响应国家“东数西算”战略,小鹏汽车与阿里云选择在乌兰察布建设智算中心“扶摇”,算力规模达600PFLOPS,可将自动驾驶模型训练提速近170倍。模型训练速度的大幅提升,将有力推动自动驾驶技术的发展,让汽车的智能化程度和安全性都迈入新的阶段。
同时,“扶摇”也是更绿色低碳的智算中心,结合乌兰察布当地天然的气候优势,采用风冷、AI调温、模块化设计等绿色技术,可实现全年超过80%时间全新风运行,年平均PUE小于1.2。
小鹏汽车与阿里云联合建成自动驾驶智算中心3
8月2日,小鹏汽车宣布在乌兰察布建成中国最大的自动驾驶智算中心“扶摇”,用于自动驾驶模型训练。“扶摇”基于阿里云智能计算平台,算力可达600PFLOPS(每秒浮点运算60亿亿次),将小鹏自动驾驶核心模型的训练速度提升了近170倍。
小鹏汽车董事长、CEO何小鹏表示,“随着自动驾驶模拟训练的需求变化,我们需要一个强大的本地+云端的算力来支持。我非常有信心和阿里云在一起合作,我们能够更快更强去实现自动驾驶的研发。小鹏汽车期待,与阿里云一起携手共进,共创未来出行时代的美好明天。”
数据驱动是自动驾驶发展的公认方向,也让自动驾驶模型训练成为一头“吃算力”的巨兽。自动驾驶的视觉检测、轨迹预测与行车规划等算法模型,有赖于机器学习海量数据集,但算力的不足让研发速度仍远远赶不上数据量增长的速度。随着传感器的进一步增加,算力的挑战越来越大。
近年来,专用于机器学习的AI智算成为发展最快的一种算力形式。包括谷歌、微软、Meta、阿里巴巴在内的顶尖科技公司都纷纷建造了智算中心。
自动驾驶算法模型训练是机器学习的典型场景之一。在乌兰察布,小鹏汽车建造了一个算力规模达600PFLOPS的自动驾驶专用智算中心“扶摇”,来进一步提高模型训练的效率。
通过与阿里云合作,“扶摇”以更低成本实现了更强算力。首先,对GPU资源进行细粒度切分、调度,将GPU资源虚拟化利用率提高3倍,支持更多人同时在线开发,效率提升十倍以上。在通讯层面,端对端通信延迟降低80%至2微秒。整体计算效率上,实现了算力的线性扩展。
存储吞吐比业界20GB/s的普遍水准提升了40倍,数据传输能力相当于从送快递的微型面包车,换成了20多米长的40吨集装箱重卡。此外,阿里云机器学平台PAI提供了模型训练部署、推理优化等AI工程化工具,比开源框架训练性能提升30%以上。
“扶摇”支持小鹏自动驾驶核心模型的训练时长从7天,缩短至1小时内,大幅提速近170倍。目前,“扶摇”正用于小鹏城市NGP辅助驾驶系统的算法模型训练。和高速道路相比,城市路段的交通状况更为复杂,自动驾驶特殊场景(corner case)的数据集规模增加了上百倍。
资源隔离主要采用的是虚拟化的解决思路,目前NVIDIA有两种 GPU 虚拟化的解决方案:
目前社区的GPU调度方案:
1.Nvidia 贡献的调度方案,只支持按较粗粒度的调度,按GPU块数调度。
Nvidia GPU Device Plugin
2.阿里云服务团队贡献的 GPU 共享的调度方案,其目的在于解决用户共享 GPU 调度的需求Kubernetes GPU共享实践
gpushare-scheduler-extender
gpushare-device-plugin
由于资源隔离主要采用的是虚拟化技术,并且NVIDIA提供的两种GPU虚拟化解决方案都没有开源,GPU共享在资源隔离方面的实践资料相对较少,大多关注GPU资源的调度。
相关资料: Kubernetes的共享GPU集群调度
优点:
缺点:
前提条件:
实现思路:
依赖于Kubernetes的现有工作机制:
相关资料: AI 在 K8S 中的实践:云智天枢 AI 中台架构揭秘
实现思路:
相关资料: 基于 Kubernetes 的 GPU 类型调度实现
实现思路:
利用kubernetes现有的工作机制:
优点:
缺点:
1. 通过CRD(CustomResourceDefinition)定义两种资源:ExtendedResource 和 ResourceClass
ExtendedResource 描述了一种扩展资源,比如 NVIDIA GPU;
ResourceClass 定义了容器选择哪种扩展资源,它的使用方式和 Kubernetes 中的 Extended Resource类似,用户可以直接在容器中指定,就像使用 CPU 和 Memory 一样。
2. 利用 Scheduler 的扩展机制扩展Scheduler,负责调度容器中使用了ResourceClass资源对象的Pod
通过查询 ResourceClass 对象的定义过滤选择节点上的 ExtendedResource 资源,从而找到合适的节点并绑定,并将合适的 ExtendedResource 写到 Pod Annotation 中,供 Kubelet 组件使用。
3. 利用Nvidia Device Plugin插件,扩展NVIDIA GPU资源,负责与kubelet组件通信以及创建和维护 ExtendedResource 资源对象
ExtendedResource 资源中包含着 GPU 的频率、显存等信息,当多个容器想使用同一块 GPU 时,我们可以定义一个 ResourceClass 资源对象,在 ResourceClass 中声明使用多少显存(这里共享的是显存)。这样,应用部署时,我们只要在容器中声明使用该 ResourceClass 资源即可,之后 Scheduler Extender 会过滤符合条件的 ExtendedResource 对象,绑定到合适的节点上。
如果要实现资源共享,我们可能需要在 ExtendedResource 中记录显存的用量情况,供调度参考。
相关资料: 在 Kubernetes 中使用 vGPU 实现机器学习任务共享 GPU
实现思路:
利用GPU厂家、虚拟化厂商等提供的GPU虚拟化技术,对GPU进行虚拟化,把完整的GPU进行分割。然后按照调度物理GPU一样在k8s中调度GPU。
优点:
缺点:
k8s官网对GPU调度的说明 提供了Nvidia GPU容器调度能力,但是只能将一个GPU卡分配给一个容器
从零开始入门 K8s:GPU 管理和 Device Plugin 工作机制
如何在Kubernetes实现GPU调度及共享
Kubernetes GPU使用指南
Kubernetes如何通过Device Plugins来使用NVIDIA GPU
你真的了解多个docker容器如何共享GPU么?
Kubeflow 使用 Kubernetes 进行机器学习
发表评论
暂时没有评论,来抢沙发吧~