“深度学习”的显卡君
- 来源:微型计算机Geek smarty:if $article.tag?>
- 关键字:显卡,PC,DIGITS,CPU smarty:/if?>
- 发布时间:2015-06-15 14:24
你好,显卡君!显卡君可不是只会摆弄游戏,不管你是PC也好,手机平板也罢,任何有显示功能的产品都含有显卡(广义上的),区别只是独立的还是集成的、性能高与低而已。看看奥迪汽车吧,它的车载系统采用的就是NVIDIA Tegra处理器,其集成的显示核心为车载系统的智能化提供了强有力的支持。是的,现在的显卡君真的越来越聪明了,它会“深度学习”并“深度使用”。今儿咱GEEK就来科普下显卡的“深度学习”,说道一些高大上、高精深的东西,各位正好充充电。
咱先来看看“深度学习”究竟是个啥?其实它是指PC使用神经网络自主学习的过程,简单说PC的深度学习就是为了模拟人脑进行分析学习,并建立类似人脑似的神经网络。这意味着PC未来也可以有自己的想法和思维,并充分发挥自己的主观能动性去实现和改变某些东西。千万别小瞧PC的深度学习,因为在人工智能领域快速成长的深度学习技术是一项创新的计算引擎,在医药研究、全自动驾驶汽车等很多领域都有突出的表现。想起来都有一点小激动呢!那些众多大片中、具备超高人工智能的PC和机器人,未来应该不是梦想了吧。
而显卡作为PC最重要的部件之一,其智能化的程度在很大程度上影响了PC的深度学习能力。在这方面,NVIDIA显卡无疑走在了前面。不过,工欲善其事,必先利其器。虽然NVIDIA显卡确实很强悍,但也需要与之匹配的软件来实现深度学习。2015年4月15日,NVIDIA北京召开会议,主要议题就是显卡深度学习的方方面面。
软、硬结合:DIGITS Dev Box横空出世
深度学习的想法虽好,但实现起来还是非常困难的,毕竟使用深度神经网络来训练电脑如何分类和识别物体,是一件繁重又费时的事儿。不过好在NVIDIA新近开发了名为DIGITS的深度学习GPU训练系统软件,这是首套用于设计、训练和验证图像分类深度神经网络的多合一图形系统软件,可以为用户提供所需数据,帮助用户建立最优的深度神经网络。不仅如此,DIGITS可以在安装、配置和训练深度神经网络过程中帮助用户处理复杂的工作。简单说,那些模拟、演算等繁琐的计算工作依靠DIGITS和NVIDIA显卡就可以很好地完成,科研人员只需要直接研究结果,是不是简单很多呢?
好吧,既然都提供了DIGITS这种逆天神器,何不一步到位呢?索性NVIDIA又推出了名为DIGITS Dev Box的深度学习机器,这是一套集多项功能于一身的平台,简单说它能加快深度学习的工作。当然,显卡在DIGITS Dev Box这台机器中起到了举足轻重的作用,它采用四颗NVIDIA GeForce TITANX GPU,从内存到I/O,Dev Box的每个组件都进行了最佳化和最严格调试,可以适应最严谨的深度学习工作。
那么,DIGITS Dev Box究竟是如何工作的呢?使用起来复杂吗?首先,是预安装,即它先将科研人员需要的DIGITS软件包、Caffe(最受欢迎的深度学习架构)和NVIDIA完整的GPU加速深度学习库cuDNN2.0等软件都安装好了。其次,它的使用便利性也非常高,只需要连接普通电源插座,无需单独的其他设备。最后,如果要做一个性能对比的话,使用DIGITS Dev Box来训练AlexNet只要13个小时就能完成,而使用最好的单GPUPC的话则是两天,单纯使用CPU系统的话则要一个月以上的时间。
望下一代Pascal架构
上文提到了显卡用于深度学习的软件以及机器,接下来我们来看看显卡本身的发展情况。既然软件这么给力了,显卡也不能拖后腿不是。
正是因为深度学习现在越来越火,NVIDIA下新一代Pascal显卡开始对深度学习进行优化。简单来说,采用Pascal架构的GPU拥有的三大设计,将大幅加快训练速度,精准地训练更丰富的深度神经网络,拥有更强大的学习能力。
第一大设计就是,它具备32GB显存,是NVIDIA新发布的旗舰级产品GeForce GTX TITANX的2.7倍,大显存为Pascal进行混合精度计算打下了基础。这使得Pascal架构的GPU的单精度计算能力能够两倍于其双精度计算能力,好处是特别提高了深度学习的两大关键活动:分类和卷积的性能,同时又达到所需的精准度。
第二大设计就是Pascal配备了3D堆叠显存,可以提升深度学习应用程序的速度达5倍。一直以来,显存带宽都限制了GPU的发展。而现在采用3D堆叠显存的Pascal相比Maxwell,带宽和容量都分别提升了3倍左右。这让开发人员能建立更大的神经网络,大大提升深度学习训练中带宽密集型部分的速度。
第三大设计就是NVLink,Pascal架构加入NVLink技术将使得GPU与CPU之间数据传输的速度,较现有的PCI-Express标准加快5~12倍,对于深度学习这些需要更高GPU间传递速度的应用程序来说是一大福音。不仅如此,NVLink还可以以新的方式连接CPU与GPU,在服务器设计方面提供较传统的PCI-E传输模式拥有更出色的灵活性和省电表现。
文、图/寰宇
