请选择 进入手机版 | 继续访问电脑版

泰安在线

 找回密码
 立即注册
订阅

文章

210亿颗晶体管加持 金山云全国首家商用Tesla V100

发布时间:2018-6-4 15:51作者:马趁 阅读:467 评论: 0来自: 消费日报网

导语2018年被称为AI全面爆发的元年,大量AI行业应用逐渐落地,带来了生产效率及生活品质的大幅提升,催生出了更加多元化的商业价值。

  2018年被称为AI全面爆发的元年,大量AI行业应用逐渐落地,带来了生产效率及生活品质的大幅提升,催生出了更加多元化的商业价值。而伴随着AI发展进入深水区,待处理数据量空前庞大,算法复杂度呈现指数级增长,能否提供更快更强的计算力,成为AI保持高速发展的关键因素。

  面向用户日益增长的对于构建更智慧AI应用的计算需求,提供性能更加强悍、弹性易扩展和高性价比的云上计算能力,成为业界的共同目标。金山云基于对用户需求的深刻把控,于近期正式推出了基于NVIDIA Tesla V100的GPU云服务器,支持最高15*8 TFLOPS的单精浮点计算能力和125*8TFLOPS的混合精度(FP16/FP32)矩阵计算能力,使深度学习训练与推理过程性能提升300%,而成本保持不变。

  210亿颗晶体管构建最强计算力

  作为国内首家正式公开售卖的基于Tesla V100的GPU云服务器,使用了创新的Tensor Core引擎,将混合精度浮点的计算能力再提升10倍以上,在整体深度学习的训练与推理应用中相比于上一代PASCAL平台有了3倍性能提升,可轻松应对深度学习,科学运算、图形图像渲染等诸多应用场景,有效缩短在线预测和离线训练时长。

  目前基于V100的GPU加速计算服务已全面商用,为包括小米等在内的诸多客户提供着高性能的计算支撑。小米最新发布的年度旗舰手机小米8,其AI加持的全面屏系统MIUI 10、AI相机、AI语音助理“小爱同学”等,背后均有金山云顶级GPU资源提供的计算服务,极大提升了产品的研发效率和使用体验。

  在基础结构层面,Tesla V100一共包含了210亿颗晶体管,搭载了84个SM(流多处理器)单元,其中有效单元有80个,每个SM单元中有64个单精度的处理单元CUDA Core以及8个混合精度的矩阵运算单元Tensor Core,总计共有5120个CUDA Core和640个Tensor Core,搭载16GB的HBM 2的显存,带宽可以高达900GB/s,并且支持300GB/s双向带宽的NVLink2.0的主线协议。

  全新的Volta架构示意图

  在线程调配层面,V100是首款支持独立线程调度的GPU,允许GPU执行任何线程,从而程序中的并行线程之间能实现更精细的同步与协作,使用户能在更复杂多样的应用程序上高效地工作。独创的Tensor Core打破了单处理器的最快处理速度记录,能够提供比功能单一的ASIC更高的性能,在不同工作负载下仍然具备可编程性。

  Tensor Core打造更专业的深度学习计算单元

  Tensor Core是Volta架构最重磅的特性,是专门针对深度学习应用而设计的专用ASIC单元,是一种矩阵乘累加的计算单元。(矩阵乘累加计算在Deep Learning网络层算法中,比如卷积层、全连接层等是最重要、最耗时的一部分)。Tensor 核心每个时钟周期可执行64次浮点混合乘加(FMA)运算,从而为训练和推理应用程序提供高达125 TFLOPS的计算性能。

  更强悍的计算能力意味着开发人员可以使用混合精度(FP16 计算使用 FP32 累加)执行深度学习训练,从而实现比上一代产品快3倍的性能,并可收敛至网络预期准确度,目前Tensor Core可以支持的深度学习框架有Caffe、Caffe2、MXNet、PyTorch、Theano、TensorF low等。

  此外,Tesla V100的NVLink版本支持NVLink2.0高速互联总线协议,Tesla P100支持的NVLink1.0协议,每颗GPU可以连接4根总线,每根总线的单向传输带宽可以达到20GB/s,四根总线可以实现单向80GB/s、双向160GB/s的IO带宽。而Tesla V100支持最新的NVLink2.0协议,每颗GPU最多可以实现六根总线互联,每根总线的单向传输带宽可以达到25GB/s,六根总线可以实现单向150GB/s、双向300GB/s的IO带宽,相比NVLink1.0,带宽几乎提升了1倍。

  高混合精度计算能力让计算更高效

  Tesla V100有NVLink和PCIe两个版本,计算核心都是GV100,均有5120个CUDA Cores以及640个Tensor Cores, NVLink 版本主频略高,双精度浮点计算能力达到7.5TFLOPS,单精度浮点计算能力达到了15TFLOPS,而混合精度计算能力可以达到125 TFLOPS ,PCIe版本有7TFLOPS双精度浮点计算能力、14TFLOPS单精度浮点计算能力和112个TFLOPS混合精度计算能力。

  在训练 ResNet-50 时,单个V100 Tensor Core GPU的处理速度能达到1075 张图像/秒,与上一代Pascal GPU相比,它的性能提高了4倍。据测算,假如有100万张图片需要学习,理论上仅需约15分钟即可训练完成。

  NVLink和PCIe版本Tesla V100对比

  金山云作为国内首家正式商用Tesla V100的云服务厂商,目前在售基于V100的服务器有GPU云服务器(P4V系列)和GPU物理服务器(P4E系列)。卓越的深度学习计算性能,让用户能够更加快速、高效构建AI业务,弹性易扩展和高性价比的特性,能够为用户节省大量计算成本,有效降低AI开发的时间风险,提高企业AI竞争力。

  原标题:210亿颗晶体管加持 金山云全国首家商用Tesla V100|精度|矩阵|带宽


鲜花

握手

雷人

路过

鸡蛋
上一篇:爱博物科学少年论坛登场2018贵州数博会下一篇:抢占制高点 用“芯”谋未来
热点图文
泰安市召开中小学家庭教育工作推进会
泰安市召开中小学家庭教育工作推进会
泰安市中小学家庭教育工作推进会议在东平县召开。
泰安:资源共享、共驻共建 财源城市基层党建共同体启动
泰安:资源共享、共驻共建 财源城市基层党
财源城市基层党建共同体启动大会举行。会议共包括三个阶段,分别是共同体理事会选举会
新泰一七旬老太被困山顶 消防肩扛手抬救下山
新泰一七旬老太被困山顶 消防肩扛手抬救下
10月25日13时7分左右,泰安消防支队作战指挥中心接到报警称,在新泰市青云山玉皇庙附
泰安市畜牧业新旧动能转换和乡村振兴 现场会在新泰召开
泰安市畜牧业新旧动能转换和乡村振兴 现场
泰安市畜牧业新旧动能转换和乡村振兴现场会在新泰召开。
宝成铁路通车60年:铁路工人师傅眼中的60年变迁
宝成铁路通车60年:铁路工人师傅眼中的60年
(记者 刘忠俊)10月24至25日,来自中央、省市的媒体记者走进宝成铁路江油、马角坝火车
泰安市162名学生通过2019年度空军招飞初检
泰安市162名学生通过2019年度空军招飞初检
2019年度泰安市空军招飞初检工作在英雄山中学进行,本次招飞初检主要面向全市高三年级

Copyright © 2017 taiancn.net 泰安在线 版权所有 All Rights Reserved.

免责声明: 本网不承担任何由内容提供商提供的信息所引起的争议和法律责任

手机版|小黑屋|