APU处理器性能问题

第二代AMD锐龙处理器采用了12nm制作工藝性能提升非常明显,2600和2700这两款分别为Ryzen5和Ryzen7系列中的次旗舰表现出色,测试中取得了很不错的成绩适合现在想要装机玩游戏的用户选擇。

虽然HBM的技术标准由AMD牵头SK海力士拿出成品,最终JEDEC固态协会接纳并制定但是到了第二代,三星抢在了SK海力士之前量产

与Intel、三星、TSMC争搶10nm工艺不同,全球第三大晶圆代工厂Globalfoundries(格罗方德以下简称GF)直接跳过了10nm工艺,直接奔向高性能的7nm工艺节点AMD的CPU/GPU路线图也跳过了10nm节点,下一代嘚Zen 2/Zen 3处理器、Navi显卡会直接上7nm工艺

本周开始,AMD的股价就开始上涨(涨了近20%)而在周三的早盘交易中,它的股价上涨了6.7%涨到了12.84美元。突然的AMD荿了投资人眼中的香饽饽。

最近AMD发布了基于Vega新架构的新款专业卡Radeon RX Vega Frontier Edition而且官方确认而来,针对游戏玩家的消费级产品也将在台北电脑展上现身

}

  ● 融合概念提出与先行

  融合是指主动将GPU等单元整合在芯片内部并且通过统一的总线控制模式让系统将其识别为一颗处理器。不过鉴于和GPU功能单元的巨大差异、指令集的完全不兼容性融合工作的开展是非常艰难的。但是畅想未来的融合发展和应用将因为处理器融合得到巨大性能提升融合处理器也因此成为业界关注的焦点。

  目前的融合处理器市场上有自己的Sandy Bridge架构酷睿系列处理器(整合GPU单元),长期准备之后已经发布了APU(整合GPU单元为主)正在计划中的麦克斯韦处理器(GPU主动整合ARM架构CPU单元)。不过各家的融合之路都是顺畅的融合层次过于浅表,AMD的融合处悝器没有得到应用环境支撑NVIDIA的融合处理器还停留在纸面上。


  2005年10月25日在AMD收购后,随即发表代号为Fusion(融合)的研发计划Fusion预计将AMD的CPU与ATI嘚GPU整合在一起,同时也将北桥芯片也一并纳入2008年4月23日,AMD在北京举行了“和谐计算 卓越视界”创新技术大会更强调CPU与GPU的和谐工作,并提絀了APU概念这是首个融合处理器概念的提出,也是业界争论最终的一种方向

  毕竟我们在上世纪80年代末看到Intel生产的486处理器开始成功整匼了协处理器,协处理器的概念从此消失而变为CPU内部的FPU(浮点处理器)如果说486时代的融合只是第一次尝试,那么后来业界还是做出了艰難的不断探索

  进入2008年4月,芯片产业爆发了大规模的口水战先是Intel在上宣称产业将会消亡,而后NVIDIA CEO黄仁勋宣称GPU将超越CPU的地位中央处理單元(CPU)与图形处理单元(GPU)之间爆发了激烈的冲突。实际上Intel没有一颗像样的图形单元或者说Intel忽略了光栅化整个过程在显卡独立之后的飛速发展,造成其现在的困境而NVIDIA也没有X86授权和X86处理器开发经验,这是一家长期以图形处理器设计为主线的公司

  不过在融合处理器開发方面,资本和技术积累深厚的Intel不知是看到了业界巨变的前兆还是感受到了超级计算机市场来自GPU等高浮点密度计算单元的压力其Larrabee芯片隸属于Tera-Scale项目,是一块融入的诸多先进技术的GPU对于图形工业而言,Larrabee是一款具有革命意义的产品它与常规的意义上的GPU存在理念上的差异,即Larrabee将通用计算性能放在优先位置

  不过后期呈现在消费者面前的不是Larrabee成品处理器,而是一颗非常简单易行的融合处理器其融合程度甚至连胶水融合都算不上,两颗Die放在一个基板上第一颗整合了GPU和CPU的处理器出现了——Clarkdale核心Intel酷睿处理器。

  ● SNB酷睿性能增强

  第一个高喊融合概念的是同时强大的媒体关注宣传能力几乎让全世界知道了APU将要上演一场变革。不过第一个做出融合处理器的却是它没有停留在“纸上谈兵”的阶段,在今年年初发布了首款整合GPU图形单元的处理器Clarkdale这是Sandy Bridge架构酷睿系列处理器出现之前的一次有益尝试。

   面对業界广泛的非议和自己对GPU单元多年并不深厚的技术积累决定用这种抢先发布的方式生产了一颗MCP(Multi-Chip Package)方式对接的处理器。Clarkdale核心包括和GPU两个蔀分部分使用了新一代32nm工艺制造,是双核心四线程设计;GPU部分就是传统意义上的北桥为45nm工艺制造,内含双通道控制器、PCI-E控制器和

  在经历了Clarkdale处理器较为松散的融合开发经历之前,Intel已经开始对于传统GMA系列集成GPU的优化工作从X4500开始,统一渲染单元被称之为“EU”拥有更恏更灵活的SMID执行表现。G45图形核心能够支持DirectX 10以及Shader Model 4.0其3D性能和频率的相关性很强,我们看到集成在内核中的GPU频率达到900MHz性能则已经超越了入门級别和AMD板上集成显存的785G芯片组。


SNB架构处理器核心架构图

  在这些准备都进行完毕之后Intel开始了SNB处理器更深层次融合架构尝试。我们可以看到与上代相比SNB的核芯显卡芯片与处理器完全集成在了一起,而控制器也进一步进行了集成

  在SNB中,三级缓存依然延续其中L1缓存嘚设计与酷睿微架构相同,而L2缓存则采用超低延迟的设计而L3缓存也依然采用的是共享式设计。英特尔第二代英智能酷睿处理器的、、依嘫可以通过对超线程技术的支持与否而划分定位虽然处理器型号不同不过架构基本类似。


SNB核芯显卡架构解析

  上图中可编程着色硬件被称为EU和X4500的命名方式完全相同。EU包含着色器、核心、执行单元等可以从多个线程双发射时取指令。内部ISA映射和绝大多数DX10 API指令一一对应架构很像CISC,结果就是有效扩大了EU的宽度IPC也显著提升。

  Intel此前的图形架构中寄存器文件都是即时重新分配的。如果一个线程需要的寄存器较少剩余寄存器分配给其他线程。这样虽能节省核心面积但也会限制性能,很多时候线程可能会面临没有寄存器可用的尴尬芯片组集成时代,每个线程平均64个寄存器Westmere时代的HD Graphics提高到平均80个,SNB则每个线程固定为120个SNB里每个EU的指令吞吐量都比现在的HD

  SNB酷睿处理器融合GPU的目的在目前看来是非常简单明了的,近期来看Intel需要一颗更强大的集成GPU单元来让使用者体会到更好的游戏性能;远期来看Intel需要逐步尝試CPU+GPU融合架构而GMA系列GPU毕竟有着较为长时间的光栅化积累。

  同时借助Intel强大的半导体技术SNB酷睿处理器融合的GPU单元拥有极高的运行频率,當然在图形单元显存总线方面SNB架构没有明确标示GPU单元是挂在内存控制上还是北桥上,不过以目前效率来看Intel的表现的确是让人满意的

  ● APU融合兑现目标

  在经历了2005年的Fusion概念提出和2008年的APU提出之后,进入了相当长时间的艰苦开发周期而在这一周期内又经常放出很多备受關注的架构图和各类模拟测试数据,所以对于笔者这样的工作来说APU发布的更多概念其实是兑现承诺,告诉世人APU开发计划并没有胎死腹中

  作为AMD的全新产品,其在命名上也突破了传统APU全称是“Accelerated Processing Units”,中文名字叫加速处理器是AMD融聚理念的产品。之前频道对于APU整合GPU单元的意义已经做过较为全面的分析所以本为仅是对APU图形单元的构成做一些回顾并且提出自己的看法。

  简单看上去APU就是整合了传统单元、控制器、Radeon图形处理器的融合处理器而实际上其融合程度在目前来看还是较为可观的,主要原因是GPU和共享内存控制器这就比单纯把GPU放在PCI-E總线上要减少很多延迟。


APU微架构与总线控制器

  Llano APU内部整合了一个双通道控制器单条内存是双通道就是,基本上可以满足主流独显的位寬要求但是用户需要购买双通道内存才可以组建128-bit内存控制器以提升APU带宽。CPU和GPU合用的话可以最大化资源利用这种融合方式让GPU不在使用自巳独立而不可占用的显存控制器。同时北桥允许GPU用高于显存带宽的吞吐量访问系统内存这也是一个重要的架构亮点。

  APU的图形单元实際上就是Radeon HD 5000所使用的Redwood独立GPU核心去掉显存控制器后剩下的单元Redwood核心其由6.27亿晶体管构成,拥有400个流处理器、8个光栅处理器和20个贴图单元核心能够完整支持DirectX 11 API和Shader Model 5.0,也就说其不仅在3D表现上能够完美呈现DirectX

  对于一个精通硬件架构的爱好者来说APU目前还不能算作是较为深入的融合架构,虽然APU做出了跨越性的思维方式和其他跨越性设计但是GPU显存的控制、GPU与CPU高效通信、GPU与CPU内存统一定址等问题还需要用更深层次的融合架构來解决。

  ● 逆向融合之麦克斯韦

  相对于、AMD这些传统的厂商对于问题的思考明显要更复杂一些,这是一家没有X86授权的无工厂芯片設计厂商也是没有开发出CPU成品的公司。不过NVIDIA最近几年的动向已经说明了一些浅显的发展方向Tegra的开发就是重要例证。


Tegra处理器架构简图

  Tegra的前身是2008年2月NVIDIA发布的用于与PDA平台的APX 2500应用处理器NVIDIA在台北举行的 08大会上,正式发布了针对、手机等移动互联设备的处理器——Tegra这也是NVIDIA推絀的第一款CPU。Tegra是一款系统单芯片内建ARM架构的处理器核心、基于GeForce的立体显示核心、影像处理器、音效处理器和图像处理器。

  值得注意嘚Tegra由于其低功耗特性并不适合PC图形处理不过Tegra是NVIDIA第一次进行成功的GPU设计。和以往专注于视觉图形处理器不同Tegra是一款通用处理器,基于ARM 11架構ARM公司负责出售框架IP,NVIDIA在买入IP之后自行开发了这款处理器

  在进化到V7核心之后,为了取得更好的性能功耗比ARM构架抛弃了冯诺依曼結构,全面转向了哈佛结构哈佛结构的数据和指令总线是分开的,分开的总线使得一些在冯诺依曼结构中必须串行执行的操作比如load/write可鉯并行执行,这虽然提高了系统的执行效率但也使得ARM构架对带宽变得更为敏感,甚至还对内存并联度提出了新的苛刻的要求

  所以說对于未来融合处理器的定位偏向图形计算,加之强大的ARM也需要强大的内存带宽支撑这些因素促使NVIDIA选择了逆向融合技术——把CPU单元挂在GPU強大的显存控制器上。

  目前一颗搭配三通道 1066内存(共计显存带宽)可以获得25.5GBs的存储子系统带宽,而融合处理器如果使用双通道或者廉价的单通道设计GPU挂在CPU内存控制器上仅能获得15-25GBs带宽。反观目前的民用千元级一款常见的Radeon HD6850显卡即可通过显存控制器获取到128GBs带宽,GTX580级别显鉲更是拥有将近200GBs带宽CPU性能可以得到充分释放。

  ● 融合硬件障碍难清

  融合处理器目前拥有很多架构方面的障碍让我们从最先推絀结构最简单的SNB架构酷睿处理器开始进行对比。首先本次集成在内部的GPU单元虽然性能较好但是其基于上一代统一渲染架构演化而来,所鉯无法实现众多功能

  通过和两家核芯的对比我们可以看到,AMD的核芯显卡最大优势在于支持DirectX 11这是Intel的HD Graphics 3000所无法达到的。另外AMD APU还支持OpenCL标准,可以通过异构计算来使处理器和显卡进行融合协同运算从而达到更好的性能,HD Graphics 3000在并行加速方面目前几乎无解决方案

  我们已经汾析了显存带宽对于GPU性能的影响,那么对应到具体硬件来分析我们可以获知APU的和GPU部分共享控制器之后就涉及到争抢带宽的问题,实际分配到的带宽要比理论值低尤其是在CPU和GPU负载都很高的情况下。


APU内部通信能力分析

  对于这种情况AMD也采取了相应的措施首先APU的GPU单元直接掛在系统内存总线上避免绕道北桥以及PCI-E进行带宽分享,其次虽然通过只能获得最大29.8GB/s带宽但是GPU还是可以有一个快速通道获得大于29.8GB/s的通信带宽


APU提升内存带宽后性能测试

  但是国外媒体通过实际测试得到的结果已经充分说明了APU在内存带宽方面的饥渴,拥有400个流处理器的HD6550D和拥有160個流处理器的HD6450性能基本相当而通过提升内存带宽到-1866之后,APU实际性能已经接近同规格的

  由此看来在内存带宽严重受限的情况下,为叻通信便捷将GPU挂在CPU二级缓存上或者更深层次的融合是正确选择但是为了彻底解决GPU对带宽的较高要求,或许提出的逆向融合方式才是正解值得一提的是Intel的Larrabee计划和AMD下一代独立显卡也已经出现了将低功耗CPU整合在GPU之内的意向。

  ● 异构计算应用环境之疑问

  针对各家硬件厂商提出的融合硬件架构业内拥有大量可以用于实际工作的融合处理器应用软件和使用环境,这包含大量富含矢量操作的图形图像处理软件和影响力较为广泛的API应用程序接口

  首当其冲的是努力倡导的OpenCL开放性编程环境。OpenCL (Open Computing Language开放计算语言) 是一个为异构平台编写程序的框架,此异构平台可由GPU或其他类型的处理器组成。

  虽然有着完全开放的标准来保证高效的融合处理器编程但是目前我们依然看到太多問题,笔者有一个观点:任何工作都能胜任的API什么都干不好原因是OpenCL开放的编程环境还需要各家厂商针对自有硬件的编译器,而AMD在放弃Brook+之後暂时没有合适的编译器提出所以纵然有OpenCL提供大环境,但是AMD依然没有获得较为广泛的厂商支持


AMD艰难推广并行加速APP应用程序

  目前我們能够看到的一些基于OpenCL的应用程序大多是基于 Stream整套解决方案开发的。ATI Stream技术定义程序可以被分为两种也就是图中的库,以及第三方代码庫可以直接转化成brook+,第三方代码则需要通过stream编译一下编译好的东西可以直接丢给CPU或者GPU算。

  其中绿色的是计算抽象层规则这张图片說明ATI GPU可以通过计算抽象层规则直接运行程序,也可以通过OCL来支持应用程序也就是说OCL只是其中一种选择。实际上AMD倒向OCL应该也有打算让自巳以第一的身份接近OCL制定者并影响对方甚至施压的意思。CUDA和Stream都是编译环境而OpenCL跟DirectX都是API。

  所以说OpenCL的又一大重要原因就是其开放性导致其對每一代的硬件系统没有制约性和指导性我们研究微软的DirectX应用程序接口发展历程发现AMD和都小心翼翼地针对DirectX接口开发硬件,如果自己的硬件有不合理的设计则会导致效率低下而OpenCL不对硬件提出要求,硬件厂商无法看到对其优化能带来任何性能提升所以也没有支持欲望。

}

原标题:AMD A8-9600 APU评测:低端平台隐藏的暗杀者

今年AMD在CPU市场的表现相当活跃Ryzen系列处理器的推出让AMD的CPU占有率和营收都大涨,从今年Q2和Q3的财报就能看出Ryzen处理器的市场表现相当优秀嘫而到目前为止AMD都没有把市场上所有价位的产品更新成Ryzen处理器,价格最低的Ryzen 3 1200处理器也要650元以上在这个价位之下Intel的奔腾G4560所向披靡,被广大玩家捧为性价比神器AMD在这个价位就没有架招的产品吗?其实是有的

现在的AM4平台是有APU用的,就是没啥存在感而已

话说大家还记不记得AM4平囼其实是去年6月份台北电脑展上发布的当时还没有Ryzen,首发的是第七代APU然而那时候移动版和OEM先行,零售的在Ryzen处理器上市后一段时间才能見得到而且上市相当的低调,AMD官方基本没有怎么宣传所以这货在市场上没啥存在感。

现在Ryzen处理器照顾不到的低端市场部分就是要由第七代APU挑大梁第7代APU代号为Bristol Ridge,与Ryzen处理器一样采用AM4针脚只不过CPU核心依然是推土机时代的遗物,是推土机架构的最终形态挖掘机虽然效能没Zen架构那么好,不过效能依然会比初代推土机架构提升20%左右 而且还加入了一堆新的指令集,而核显部分则是GCN 1.2最多拥有8组CU单元512个流处理器,支持双通道DDR4-2400内存

第七代APU一共8款产品,除了E后续那几款低电压版比较难找之外其他的都能在京东或者淘宝上找到而今天的主角是售价為450元左右的A8-9600,它就是AMD用来对付奔腾G4560的利器

当然了大家应该都清楚用挖掘机架构的APU的CPU性能是无法与Kaby Lake架构的奔腾G4560相比的,但是如果大家都用核显来玩游戏的话结果又会怎么样呢而且现在很多软件都可以使用GPU加速,APU在那些方面有优势吗今天就要来比一比。

AMD A8-9600的平台组建起来相當的便宜它本身就450元左右,发热量不大直接用原装的就可以了买一块A320主板也是400到500元左右,当然你想配B350也可以不过内存现在比较贵,兩条4GB的DDR4-2400的价钱都赶上主板+CPU的钱了……

A8-9600的测试平台用的是技嘉的A320

奔腾G4560平台的组建成本也差不多,主板有H110、B150、B250可选整体平台组建成本也差鈈多

由于AMD的旧CPU架构不给力,可能大家就潜意识中认为奔腾G4560的CPU可以吊打A8-9600虽然大多数情况下确实这样,不过大家别忘了Intel把奔腾系列处理器的AVX指令集给砍了所以会有些意外情况发生,比如下面这个Sandra 2017的CPU测试A8-9600能用AVX指令集来跑,但奔腾只能用SSE4.2指令集处理器计算这项没啥问题,但昰计算器多媒体测试问题就大了居然比A8-9600还弱。

其他理论性能测试就不说了大家自己看吧,其实多线程的性能差距也不大:

下面来看看模拟实际工作环境的PCMark 10吧其实现在很多应用程序都有GPU进行加速的,下面的对比图中橙色的是奔腾G4560而蓝色的是A8-9600,在GPU的加持下A8-9600不少项目表现嘚比奔腾G4560还好特别是与视频或者数位创作有关的优势很大。

接下来才是今天的重头戏A8-9600虽然在CPU方面落后于奔腾G4560,但是比核显性能的话楿信它是不会输的,先来看看3DMark的理论性能测试用来测试独显性能的TimeSpy和FireStrike两相测试对核显来说负担太重了,所以只能跑SkyDiver和Cloud Gate

可见A8-9600的GPU优势是压倒性的,所用的Radeon R7核显性能几乎是HD Graphics 610的两倍接下来我们看下实际的游戏测试。

A8-9600可以在《守望先锋》用分辨率低画质下跑出超过60fps的平均帧数洏奔腾G4560在同样设置下帧数则直接腰斩。

玩《CS:GO》的话两者其实差不多游戏内的多核优化已开启,两者都能在分辨率中等画质开启FXAA的情况下跑出平均50多fps

测试《英雄联盟》时发现一个问题,就是这游戏对APU优化不太好无论CPU和GPU都是没满载的,CPU负载大概在70%左右而显卡的更是没到過最大频率,不过游戏本身的要求也不高两者都可以在1080p最高画质并开启抗锯齿的情况下跑出30帧以上。

战舰世界里两者都只能开启低画质关闭抗锯齿,A8-9600的优势还是很大的平均帧数能达到45帧,比奔腾G4560高出将近10帧

《DOTA2》同样也可以把分辨率开到1080p,不过只能开低画质像素压縮能开到100%,A8-9600能跑到49.5fps高出奔腾G4560十多帧,总的来说 论核显性能AMD还是要比Intel强得多的

这部分测试分三种不同的负载,分别是桌面待机用AIDA 64 Stress FPU让CPU满載,用3DMark Sky Driver循环综合测试让CPU与GPU同时负载记录稳定后的CPU温度与平台整体功耗,两套平台均使用CPU配送的原装散热器

AMD的第七代APU还是使用台积电的28nm笁艺生产的,所以它和采用14nm工艺生产的奔腾G4560比温度与功耗的话肯定会有一定差距而且A8-9600怎么说都有四个物理核心,GPU的规模也比奔腾G4560大得多功耗高很正常 。

有趣的是虽然A8-9600的功耗比较高然而温度就要比奔腾G4560低得多,我们认为导致这样的原因有两个一是AMD所配送的散热器比Intel的原装散热器厚得多,散热面积与效率自然更好其次就是Intel CPU内部采用硅脂做导热材料,而AMD用的是钎焊后者的导热效率是前者的不知道多少倍,所以现在Intel很多CPU都是热量堆积在内部散不出来而AMD则不存在这个问题。

想让A8-9600的CPU直接迎战奔腾G4560这不太现实但是在没有独显的低端平台APU还昰有不少优势的,在不少与视频相关的应用里面可以调用强劲的GPU来帮忙此时效率就要比奔腾G4560强得多了,而且APU真正强的地方在游戏性能A8-9600嘚游戏性能比奔腾G4560强得多,可以开启更好的画质并且有更好的流畅度集显平台还是AMD的APU综合性能更胜一筹。

PRO(399元)等等京东与淘宝上也囿不少800元左右的套装出售,两条4GB的DDR4-2400其实800元内也能买得到再用400元左右买个128GB的SSD,400元买个2TB的HDD机电套留个300到400元的预算,这样你就可以拥有一台叺门级的游戏主机了

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信