本篇文章1623字,读完约4分钟

编者按:本文作者王川是一位投资者,中国科技大学三年级的校友,现居美国加州硅谷,个人微博9935070,微博@硅谷王川。36氪星被授权从其个人微信公众账户investguru复制。请在此查看这一系列文章。

一个

1992年,当我在纽约州罗彻斯特大学学习计算机课程时,当我学会这句话时,我被深深地打动了。

有疑问时,使用暴力。

“如果你感到困惑,使用暴力。”

这句话来自肯汤普森,unix系统的发明者之一。他的初衷是,程序设计中简单而粗糙的计算方法很容易实现和维护,尽管它可能有大量的计算。从长远来看,它仍然优于一些复杂但精密的计算方法。

这句话经常让我想起1943年7月苏联和德国在库尔斯克的坦克战。苏联军队的8000多辆又笨又大又黑又厚的t-34坦克损失是对手的三倍,最后打败了德国军队的3000多辆优秀的虎式坦克。

一些哲学家对暴力有另一种解释:“数量就是质量。”

数量就是质量。以数量要求质量。

在20世纪90年代,神经网络数据训练的简单计算通常需要至少几天甚至几周的时间。

这是算法改进、调整和应用开发的巨大瓶颈。

神经网络的研究呼唤蛮力,蛮力从计算速度、网络速度、存储容量和数据规模等各方面来看都是更强的、指数增长的。

事实上,这种暴力的种子是在1993年种下的。

黄仁勋1963年出生于台湾。英伟达于1993年从斯坦福大学毕业后不久成立。

nvidia成立时,它是一个图像处理芯片,主要面向电脑游戏市场。1999年,当英伟达推出其geforce 256芯片时,它发明了gpu(图形处理单元)这个术语。

gpu的主要任务是在最短的时间内显示数百万、数百万甚至更多的像素。这是电脑游戏的核心要求。这项计算工作的核心特征是同时并行处理大量数据。

当gpu在芯片级设计时,它特别优化系统以处理大规模并行计算。

传统的中央处理器芯片架构并不注重并行处理,只能同时进行一两次加减运算。gpu底部的算术逻辑单元(alu)基于所谓的单指令多数据(single instruction multi data)架构,擅长对大量数据进行并行处理。

最简单的例子是,如果有1,2,3,...32个数字,你需要计算它们。在传统的中央处理器中,32个数字应该依次计算。

然而,gpu是alu的最低级别,它允许同时批处理32个数字。

一个gpu通常包含数百个ALu,具有很高的并行计算能力。因此,尽管gpu内核的时钟速度通常比cpu慢,但大规模并行处理的计算速度比cpu快得多。

神经网络的计算工作本质上是大量的矩阵计算操作,因此特别适合使用gpu。

这个速度有多快?2010年,nvidia 480 gpu在一秒钟内显示16亿个三角形,一秒钟的计算速度是1.3万亿次浮点运算。

2015年生产的nvidia titan x图形处理器可以在一秒钟内达到6.1万亿次,几乎是2010年的五倍。二手商品的市场价格不到1000美元。

作为参考,人类超级计算机第一次真正突破了tflops的计算速度,实际上是在1996年底,但是它们的价格大约是几百万美元。

2007年,英伟达推出了一个名为cuda的并行计算软件开发界面,这使得开发人员更容易使用其gpu开发应用软件。许多大学的研究人员写道,nvidia gpu在特定任务上的计算速度比英特尔cpu快100-300倍。

英特尔技术人员在2010年发表了一篇特别的文章来反驳nvidia实际上只比英特尔快14倍,而不是传说中的100倍。

英伟达的安迪·基恩评论道:“我在芯片行业已经干了26年,从来没有见过竞争对手。”我在一次重要的行业会议上站了起来,宣布你们的技术仅比他们快14倍。”。

一种蛮力,一种来自gpu的计算蛮力,将在深度学习的应用中爆炸。

(待续)

这篇文章由读者提交,并不代表36英寸的立场。如果转载,请注明出处

“读完这篇文章还不够吗?如果你也开始创业,希望你的项目被报道,请点击这里告诉我们!”

标题:关于深度学习 这可能是你最容易读进去的科普贴了(三)

地址:http://www.j4f2.com/ydbxw/5199.html