本篇文章2210字,读完约6分钟
昨天,英伟达在2016年gtc大会上正式发布了新一代pascal架构显卡。作为家族中的第一款显卡,配备新核心gp100的特斯拉p100正式亮相。
据英伟达称,英伟达特斯拉p100将由TSMC制造,采用与华为麒麟950相同的工艺制造16纳米鳍场效应晶体管。它将拥有多达153亿个晶体管和16gb 4096位hbm2堆叠存储器。
在计算能力方面,tesla p100可以提供5.3万亿次的双精度性能、10.6万亿次的单精度性能和21.2万亿次的半精度性能,适合深度学习。
虽然切割,参数仍然是美丽的
从p100、k40和m40的参数对比图可以看出,特斯拉p100中的gp100实际上是一个“阉割版”,英伟达官方已经承认:
标准gp100内核应具有3840个cuda内核、240个纹理单元和支持高达32gb的hbm2视频内存。
而p100中的gp100内核使用了3584个cuda内核、224个纹理单元和16gb hbm2视频存储器,后者已被削减一半。
这直接带来的是单精度运算的改善不明显-
与上一代7tb的触发器相比,10.6的计算能力仅提高了50%。
虽然50%似乎是相当大的一部分,但重要的是要知道,最近几年cpu替换的性能改进只有10%左右。然而,考虑到p100从28nm lp工艺到16nm finfet工艺的飞跃以及新架构带来的优化,这个数字与之前15次触发器的预期相差甚远。
然而,这也可能是出于成本考虑。毕竟,p100是为高性能通用计算而开发的,将大部分晶体管性能放在双精度计算性能上会更具成本效益。
与gk110的0.2万亿次浮点运算相比,p100的5.3万亿次浮点运算具有显著的性能提升。即使与2013年的k40相比,它也翻了两番。
与朋友和商人相比
3月31日,几天前,amd还发布了其新一代旗舰计算卡firepro s9300 x2。
firepro s9300 x2配有两个amd斐济架构内核和两组4096位4gb hbm内存,单精度浮点性能为13.9万亿次浮点,双精度浮点性能为0.8万亿次浮点。
与p100相比,它在单精度浮点方面的性能稍逊一筹。然而,考虑到amd采用的是双核解决方案,而p100也在单精度浮点上被阉割了,如果是单核的话,还是很难逃脱被nvidia打败的命运。
另一方面,英特尔在2015年11月对其基准产品第二代至强融核进行了预览。
据说新一代产品代码是骑士登陆,也采用14纳米工艺。它配备了72个silvermont架构内核,每个内核支持4个线程,总共288个线程。在计算方面,双精度浮点性能将达到3个触发器,单精度将达到6个触发器。
从数据中还可以看出,中央处理器和图形处理器的总体计算效率较低,即使是老大哥英特尔也无能为力。
应用场景nvidia dgx-1在会议上,老黄还宣布了NVIDIA DGX-1,一款基于特斯拉p100的深度学习服务器。
据报道,dgx-1可提供170万亿次深度学习计算性能,比我们家族一年前提出的nvidia maxwell架构四路解决方案快12倍。过去需要25小时才能完成的培训任务现在可以在2小时内完成。
虽然表演令人印象深刻,但价格也很吓人——一套的价格是12.9万美元(约合83.5万元人民币)。
Nvidia drive px 2虽然基于gp100顶级内核的特斯拉p100在gtc大会上被许多媒体称为“第一款pascal架构产品”。但事实上,今年1月,基于pascal架构的drive px 2自动驾驶平台发布了,但当时还没有正式宣布。
这一次,老黄宣布了驱动px 2的具体参数:
中央处理器:8核a57+4核丹佛架构核心
Gpu: 2个基于pascal的独立显卡
内存:8gb lpddr4
功耗:250瓦
其他特征:水冷
其中,每个显卡的核心都是gp106内核,主频为1.25ghz,配有4gb gddr5视频存储器,带宽为80gb/s,128位宽。单精度浮点运算的性能是8个触发器。
在现场,英伟达还展示了基于这种自动驾驶平台的无人驾驶赛车“深绿”。它将代表在2016-2017赛季“机器人”。
附言虽然每次英伟达发布新产品,都会给人一种眼前一亮的感觉,但是如果我们冷静下来分析一下,不难看出这次英伟达对发布新产品并没有那么有信心。
P100作为第一个应用16纳米工艺的产品,在初始阶段不应该像28纳米那么成熟。此外,现场看到的冷却模块仍然是经典的单风扇冷却,tdp为300w,因此不难想象它将是新一代英伟达“高性能核弹”。
虽然老黄在现场讲了很多使用场景,但他根本没有提到跑步得分。这不禁让人想起年初在ces 2016上,当gp100内核第一次发布时,它与gm200内核一起被搬上舞台,并被无情地曝光。
与amd年初在新闻发布会上的现场运行得分相比,英伟达之所以不敢这么做,可能只是因为老黄拿着一块带散热器的pcb板(这样人们就看不到里面的内核)。
英伟达还选择大幅降低gm200的双精度计算,从而降低发热量和成本。然而,这一次,刚刚进入16纳米工艺,却是如此大步地追求终极性能,恐怕进入大规模生产和实际应用后,问题会变得更加突出。第一个问题是hbm2视频存储器的大规模生产。毕竟,目前,即使是amd推出的第一代hbm也没有实现大规模生产,它直接跨越了hbm2。amd只能做到这一点。
毕竟,如果你走得太大,很容易扯蛋。
标题:花20亿美元打造P100 但Nvidia只是拿来画了一张饼
地址:http://www.j4f2.com/ydbxw/6249.html