华为云ai(华为云AI识图作诗)
本文目录一览:
华为发布最强AI训练集群Atlas 900的意义何在?
日前,在华为全联接2019大会上,华为副董事长胡厚昆发布了Atlas 900 AI训练集群。
此次发布的Atlas 900 AI训练集群由数千颗升腾910 AI处理器互联构成,每颗升腾910 AI处理器内置32个达芬奇AI Core,单芯片提供比业界高一倍的算力。集群总算力达到256P~1024P FLOPS @FP16,相当于50万台PC的计算能力。
华为已在华为云上部署了一个Atlas 900 AI训练集群,集群规模为1024颗升腾910 AI处理器。华为以极优惠的价格,面向全球科研机构和大学,即刻开放申请使用。
传统上,我们对华为的认知是一个做基站的通讯业厂商,后来华为开始做手机,是一个手机厂商,而事实上,华为还有一个企业业务BG,为企业服务也是华为的重要业务。
那么,华为搞这个Atlas 900 AI训练集群的目的是什么?这个东西到底有多先进?其意义何在呢?
一、 升腾910的实力
最近几年,随着深度学习算法的突破,人工智能开始热了起来。但是人工智能的计算模式与传统的CPU计算不太一样,这让算力成了瓶颈。
一开始,人们用很多CPU组成传统的超级计算机,做AI计算。
后来,人们用GPU并行计算的优势,把GPU做人工智能计算。我们熟悉的AlphaGO,就是在nVIDIA的GPU上训练的。
但是,从理论角度,GPU设计出来是跑 游戏 ,跑设计的,而不是为了计算的。后来nVIDIA的黄老板发现,这么强大的计算能力只用来玩 游戏 太浪费,搞出来通用计算,GPU才能跑计算。
而那个时候,深度学习还没突破,人工智能还没热闹起来,所以GPU跑AI计算其实也是兼职,不是专职。
最后,人们干脆搞专门的芯片用来做AI计算,谷歌在搞,百度在搞,中科院投资的寒武纪在搞。
华为一开始是买的寒武纪的IP,用在自己的麒麟970上面,但是很快华为发现这个东西自己也可以来,于是就开发出达芬奇架构,搞出来升腾910。
按照华为的数据,在7nm工艺上,升腾910相比Nvidia 12nm下的Tesla V100要快一倍。
因为Tesla V100不仅算AI,也要当超算的加速器用,阉割一下还得当显卡用,所以晶体管不能全部用在算AI上。
而升腾910是专用的,这个差别,类似于CPU挖矿,GPU挖矿和矿机芯片挖矿的区别。
从专用芯片比较,百度的昆仑,寒武纪公布的芯片算力效率也很强大。但是它们相比华为的硬件实力有很大差距。
所以,华为的产品已经流片上线,它们的产品还在PPT和流片实验阶段。
目前,你能用上的AI计算,华为的方案是最强的。
二、 华为的意图
目前,华为的升腾910和Atlas 900 AI训练集群对外不销售,而是通过网络提供廉价的算力。
从成本上看,Atlas 900 AI训练集群采用“HCCS、 PCIe 4.0、100G以太”三类高速互联方式,高速低延迟互联的另外一个涵义就是“贵!”。
而升腾910用7nm流片,7nm本身就很贵,nVIDIA还用便宜的12nm,华为用昂贵的7nm加上昂贵的高速互联,成本应该高很多。
但是,华为偏偏不高价卖。
nVIDIA的Tesla V100一个卖1万美元。谷歌对外租,但是你要租一个32核的算力一个小时24美元,租一年优惠价是37842美元。
华为的价格还没出来,但是华为说了会以极优惠的价格,面向全球科研机构和大学。
华为高成本搭建算力平台,低价出租,这是做慈善吗?
当然不是,华为的意图也很有意思。
现在人工智能热,相当于淘金。而华为,nVIDIA和谷歌(未来也许有百度、寒武纪)是卖水的。
在通讯行业,电信运营商是淘金的,华为、诺基亚,爱立信是卖水的。
华为知道卖水能发财,目前这个布局期,我卖便宜点,尽量让淘金者喝我的水,然后习惯用我的杯子,我的水桶(AI配套的软件框架),等你习惯了,整个AI业界都用我的算力。我再舒舒服服的收费,淘金者就只能从我这买水了。
这个策略,和当年微软纵容盗版Windows一样,你习惯用Windows不是个系统问题,而是整个生态都在Windows下没法换了。X86处理器也没法换。
这是华为的意图。
三、 华为的AI大局缺一个百度
我们知道,当年在桌面计算上。是Wintel联盟,英特尔出硬件,微软出软件,搭建生态系统。
后来移动领域,是AA,ARM和安卓,ARM和苹果。
华为要搞这个,不仅是开放算力的问题,还需要有一个搞软件,搞应用的把算力需求放到华为平台上来。
这个人是谁呢?百度最合适 。
百度深耕AI的年头很长,布局时间和谷歌差不多,其他家的AI还在概念的时候,百度的AI已经落地到工业企业,用于质检,物流,客服很多领域了。
百度的做法是,前台服务结合行业,后台算力在百度的AI云上,百度提供软件框架,落地到解决方案。百度云端相当于AI的大系统。
华为的AI卖水要成功,需要和百度结合起来,华为AI提供算力,百度把华为的AI算力,做成AI云平台,让应用端直接调用,应用端解决实际问题。
最后是任何行业需要AI提高效率,那么它就用百度AI云平台的方案,直接调动功能。而百度AI再使用华为的AI计算硬件的算力。
华为与百度联手,或者能够变成AI时代的Wintel。
践行AI战略:华为引领数据中心网络迈入人工智能时代
AI正在成为企业助力决策、提升客户体验、重塑商业模式与生态系统、乃至整个数字化转型的关键驱动力。
但在崭新的AI时代,数据中心网络性能也正在成为AI算力以及整个AI商用进程发展的关键瓶颈,正面临诸多挑战。
为此,华为以“网络新引擎 AI赢未来”为主题发布了业界首款面向AI时代数据中心交换机CloudEngine 16800,将人工智能技术创新性的应用到数据中心交换机,引领数据中心网络迈入AI时代。
AI时代数据中心网络面临三大挑战
当前,数字化转型的持续推进,正在提速驱动数据量暴增;同时,语音/视频等非结构化数据占比持续提高,庞大的数据量和处理难度已远超人类的处理能力,需要基于机器运算深度学习的AI算法来完成海量无效数据的筛选和有用信息的自动重组,从而获得高效的决策建议和智慧化的行为指引。
根据华为GIV 2025(Global Industry Vision)的预测,企业对AI的采用率将从2015年的16%增加到2025年86%,越来越多的企业将利用AI助力决策、重塑商业模式与生态系统、重建客户体验。
作为人工智能的“孵化工厂”,数据中心网络正成为AI等新型基础设施的核心。但与此同时,随着AI时代的到来,AI人工智能的算力也受到数据中心网络性能的影响,正在成为AI商用进程的一大瓶颈。
华为网络产品线总裁胡克文指出,AI时代的数据中心网络将面临以下三大挑战:
挑战1.AI算力。高性能数据中心集群对网络丢包异常敏感,未来的网络应该做到零丢包。但传统的以太网即使千分之一的丢包率,都将导致数据中心的AI算力只能发挥50%。
挑战2.大带宽。未来5年,数字洪水猛增近20倍,现有100GE的网络无法支撑。预计全球年新增数据量将从2018年的10ZB猛增到2025年180ZB(即1800亿TB),现有100GE为主的数据中心网络已无法支撑数据洪水的挑战。
挑战3.要面向自动驾驶网络的能力。随着数据中心服务器规模的增加,以及计算网络、存储网络和数据网络三网融合,传统人工运维手段已难以为继,亟需引入创新的技术提升智能化运维的能力,如何用新的技术去使能、把网络问题排查出来成为业界都在思考的问题。
华为定义AI时代数据中心交换机三大特征
从行业大势来看,随着以人工智能为引擎的第四次技术革命正将我们带入一个万物感知、万物互联、万物智能的智能世界,数据中心网络也必须从云时代向AI时代演进。在华为看来,数据中心需要一个自动驾驶的高性能网络来提升AI算力,帮助客户加速AI业务的运行。
那么,AI时代的数据中心网络究竟该如何建设呢?胡克文指出,“华为定义了AI时代数据中心交换机的三大特征:内嵌AI芯片、单槽48 x 400GE高密端口、能够向自动驾驶网络演进的能力。”
特征1.业界首款内嵌AI芯片数据中心交换机,100%发挥AI算力
从应用侧来看,刷脸支付的背后是上亿次图像信息的智能识别,深度 健康 诊断需要基于数千个算法模型进行分析,快捷网购体验离不开数百台服务器的智能计算。也就是说,新商业物种的诞生,产业的跨越式发展以及用户体验得以改变,强烈地依赖于人脸识别、辅助诊断、智能推荐等AI应用的发展。
但由于AI算力受到数据中心网络性能的影响,正在成为AI商用进程的关键瓶颈。为了最大化AI算力,存储介质演进到闪存盘,时延降低了不止100倍,计算领域通过采用GPU甚至专用的AI芯片将处理数据的能力提升了100倍以上。
CloudEngine 16800是业界首款搭载高性能AI芯片的数据中心交换机,承载独创的iLossLess智能无损交换算法,实现流量模型自适应自优化,从而在零丢包基础上获得更低时延和更高吞吐的网络性能,克服传统以太网丢包导致的算力损失,将AI算力从50%提升到100%,数据存储IOPS(Input/Output Operations Per Second)性能提升30%。
特征2.业界最高密度单槽位48 x 400GE,满足AI时代5倍流量增长需求
数据中心是互联网业务流量汇聚点,企业AI等新型业务驱动了数据中服务器从10G到25G甚至100G的切换,这就必然要求交换机支持400G接口,400GE接口标准化工作已经于2015年启动,目前针对数据中心应用已经完成标准化,400G时代已经来临。
集群的规模是数据中心架构演进的动力,经典的无阻塞CLOS理论支撑了数据中心服务器规模从千台、万台到今天10万台规模的发展,增大核心交换机容量是数据中心规模扩大的最常见手段。以一个1000T流量规模的数据中心组网为例,采用400GE技术,核心汇聚交换机需要5K个接口,相对100GE技术减少75%。
为此,CloudEngine 16800全面升级了硬件交换平台,在正交架构基础上,突破超高速信号传输、超强散热、高效供电等多项技术难题,不仅支持10G→40G→100G→400G端口平滑演进能力,还使得单槽位可提供业界最高密度48端口400GE线卡,单机提供业界最大的768端口400GE交换容量,交换能力高达业界平均的5倍,满足AI时代流量倍增需求。同时,CloudEngine 16800在PCB板材、工艺、散热,供电等多方面都进行了革命性的技术改进和创新,使得单比特功耗下降50%。
特征3.使能自动驾驶网络,秒级故障识别、分钟级故障自动定位
当数据中心为人工智能提供了充分的技术支撑去创新时,人工智能也给数据中心带来巨大利益,如借助telemetry等技术将异常信息送到集中的智能运维平台进行大数据分析,这极大提升了网络的运行和运维效率,降低运维难度和人力成本。但是当前计算和存储正在融合,数据中心服务器集群规模越来越大,分析的流量成千倍的增长,信息上报或者获取频度从分钟级到毫秒级,再加上信息的冗余,这些都使得智能运维平台的规模剧增,智能运维平台对性能压力不堪重负降低了处理的效率。如何减轻智能运维平台的压力,在最靠近服务器,最靠近数据的网络设备具有智能分析和决策功能,成为提升运维效率的关键。
CloudEngine 16800基于内置的AI芯片,可大幅度提升“网络边缘”即设备级的智能化水平,使得交换机具备本地推理和实时快速决策的能力;通过本地智能结合集中的FabricInsight网络分析器,构建分布式AI运维架构,可实现秒级故障识别和分钟级故障自动定位,使能“自动驾驶网络”加速到来。该架构还可大幅提升运维系统的灵活性和可部署性。
引领数据中心网络从云时代迈入AI时代
自2012年进入数据中心网络市场以来,目前华为已服务于全球6400+个用户,广泛部署在中国、欧洲、亚太、中东、非洲、拉美等全球各地,帮助互联网、金融、政府、制造、能源、大企业等多个行业的客户实现了数字化转型。
2017年华为进入Gartner数据中心网络挑战者象限;2018年进入Forrester数据中心SDN网络硬件平台领导者;2013-2018年,全球数据中心交换机厂商中,华为连续六年复合增长率第一,发展势头强劲。
早在2012年,华为就以“云引擎,承未来”为主题,发布了CloudEngine 12800数据中心核心交换机,七年以来这款面向云时代的交换机很好的支撑了数据中心业务弹性伸缩、自动化部署等核心诉求。
而随着本次华为率先将AI技术引入数据中心交换机、并推出面向AI时代的数据中心交换机CloudEngine 16800,华为也在引领数据中心网络从云时代迈入AI时代。
2018年,华为轮值董事长徐直军宣布:将人工智能定位为新的通用技术,并发布了人工智能发展战略,全面将人工智能技术引入到智能终端、云和网络等各个领域。而本次华为发布的业界首款面向AI时代数据中心交换机CloudEngine 16800,也是华为在网络领域持续践行AI战略的集中体现。
而作为华为AI发展战略以及全栈全场景AI解决方案的一个重要组成部分,CloudEngine 16800不仅是业界首款面向AI时代的数据中心交换机,还将重新定义数据中心网络的代际切换,助力客户使能和加速AI商用进程,引领数据中心真正进入AI时代。
华为云普惠AI:把人工智能变成“水电煤气”
我们对AI是如何认知的?是曾经被封神的Alpha Go?是幻想中的无人驾驶技术?还是一串串密密麻麻的代码?总之,AI曾经是遥不可及、高冷且昂贵的。不过,2018年5月华为云提出了这样一个畅想:让AI走下神坛,同时也勾勒出了一个叫做“普惠AI”的愿景。
让人工智能技术变成像水、电、煤气一样的存在,有没有可能?华为云给出的答案是肯定的。
华为公司预计,到2025年智能终端数将达到400亿,届时全球企业对AI的采用率将达到86%,企业数据利用率将剧增至80%左右。很快,一个AI会渗透进生活的方方面面和各行各业各个角落的现实即将达成。
当AI从实验室走到城市、走进企业、走到街头巷尾、走进每个人的家里,就需要它变得“高而不贵”。华为云认为,所谓“普惠AI”,最重要的就是让普通的行业从业人员也能利用AI人工智能技术,自助式把数字技术与本行业的流程结合起来,形成新的智能联接。而智能联接将驱动前所未有的大规模创新,基于智能联接的全新商业模式和应用将改变企业的运作模式以及产品和服务的消费模式,推动数字经济实现规模发展,最终走向智能经济。
2018年5月,在中国国际大数据产业博览会上华为云首次提出了“普惠AI”的概念。在华为云眼中,AI应该是一组技术集合,是一种新的通用技术,并不简单的是一个独立产品,更不是一个封闭的系统。AI同时也应该成为像电力、互联网一样的基本生产力,通过智能联接使得众多行业效率实现指数级提升,这既是华为云做“普惠AI”的出发点,也是未来AI应该有的模样。
随着华为云“普惠AI”概念的提出和实践,AI 技术已经开始向它应该有的模样慢慢靠近。
一个照进现实的例子,是华为云EI的展开。今年,华为云与北京市交管局合作,在海淀上地三街开展了利用AI技术实现信号配时优化试点应用。在部署了EI交通智能体解决方案之后,据第三方公司(北京世纪高通 科技 有限公司)评估报告显示,这条东西方向的京城最堵道路之一,如今平均延误下降了15.2%,平均车速提升了15%。或许每天往返于上地三街的白领们不懂AI究竟是什么,但他们对这条变得没那么拥堵的路产生了好奇。
同样,另一条没那么拥堵的路也落地深圳。深圳交警将华为云的EI智能体运用于城市交通管理中,在坂田9个路口采用人工智能技术,平均车速提升了17%,通勤时间节省了10分钟,一杯早茶的时间就这样,在不知不觉间被节省了出来。
2018年华为云的“普惠AI”,不仅照进了城市,也落地工业和医疗领域。在工业领域中,如北京三联虹普通过EI工业智能体进行生产数据的智能分析,成功释放了产线柔性化能力,从而让企业更好的应对下游的个性化需求,有效提升下游需求匹配率28.5%;在医疗领域,华为云EI与金域医学合作,在宫颈癌病理监测领域取得阶段性突破,敏感度(真阳性率)超过99%,特异度(真阴性率)超过80%。
过去一年中,华为云EI尝试超过200个项目,6-10月先后发布了交通、工业、城市三大EI智能体,这是“普惠AI”的方案之一。而这,也仅仅是“普惠AI”萌芽期的产物,2018年的它“才露尖尖角”而已。
华为云的“普惠AI”与业界其它厂商所不同的是,它弥补了在迈向智能经济的过程中,AI技术的发展与行业落地之间的巨大落差。如何让AI高而不贵、让各行各业“用得起,用得好、用得放心”,如何与各行业的各种场景相连接,让AI成为智能经济的底座?这就要求“普惠AI”不仅是软件的普惠,也必须是硬件的普惠,以及工程化的普惠。那么,在这一过程中,人才和技术这块基石必然是绕不开的。
2018年10月华为全联接大会上,华为发布“全栈全场景”AI解决方案,对外展示了华为云“普惠AI”的另一种落地方式,即AI开发成本和门槛的降低,这意味着行业的开发者和从业者们可以站在华为云的平台上,跨过曾经的高门槛与AI对视。从前我们仰望AI,未来AI可以俯拾皆是。
华为云的“全栈”是从技术功能角度,包括芯片、芯片使能、训练和推理框架和应用使能在内的全堆栈技术方案;所谓“全场景”则包括公有云、私有云、各种边缘计算、物联网行业终端以及消费类终端等全场景的部署环境。其中,华为云全场景AI是软硬一体化方案,这也是华为云“普惠AI”的独特之处:包括基于可统一、可扩展架构的系列化AI IP和芯片Ascend 910(华为升腾9100)和Ascend 310(华为升腾310);芯片算子库和高度自动化算子开发工具CANN;支持端、边、云独立的和协同的统一训练和推理框架MindSpore;以及提供全流程开发服务(ModelArts),分层API和预集成方案的应用使能。
具体来说,比如华为自研的AI芯片Ascend系列基于统一的“达芬奇”架构,其好处是可以一次性开发算子、算力可扩展、一致的开发和调试体验、开发一次可跨各场景平滑迁移、超高带宽和极低时延以及可扩展的片上互联等。基于统一的达芬奇架构的Ascend系列芯片,可实现任何场景下,以最低成本获得最优性能。而在工程化方面,相对业界其它开发平台,ModelArts是更快的普惠AI开发平台,覆盖数据标注与准备、模型训练、模型调优、模型部署等AI开发全流程,为AI应用开发提供一站式服务。
依托华为30年的技术积累,在华为云看来,AI并不高。依托华为云的“全栈全场景”AI解决方案,华为云想让行业从业者也能拥有同样的平台、站在同样的高度,让AI在开发、应用、调试等场景下变得不再繁琐。截止2018年9月华为云已经提供了45种人工智能服务、涵盖142种功能,再加上AI开发平台ModelArts、AI应用开发平台HiLens、量子计算模拟器与编程框架HiQ,以及与线上体验一致的离线开发套件Atlas200等,形成了端到端工程化落地AI的普惠能力。
诚然,每一次工业革命都是技术转化为生产力的过程,也是先进技术不断扩展到普通人的过程,智能时代也不例外。随着AI的发展,所有的行业都将触及人工智能技术,华为云“普惠AI”的落地无疑将缩短这一进程。至少,2018年的华为云让我们看到,AI可以是街头巷尾的。(文/宁川)
发表评论
暂时没有评论,来抢沙发吧~