英特尔锐炫B580显卡天梯榜首发评测:全方位大幅进步,性能优于RTX 4060 - 文章中心
英特尔锐炫B580显卡天梯榜首发评测:全方位大幅进步,性能优于RTX 4060
2024-12-29

BMG-G21 GPU核心规格介绍

英特尔锐炫B580显卡天梯榜首发评测:全方位大幅进步,性能优于RTX 4060

预览

BMG-G21 GPU生产工艺从上代台积电N6升级到N5工艺,规模上其实是要比锐炫A770等显卡所用的ACM-G10要小的,渲染切片数量从8个减到5个,晶体管数量从217亿减少至196亿,芯片面积从406mm2大幅减少至196mm2,官方提供的Int8算力锐炫B580也是要略低于A770的,但 根据我们的实测,B580的无论游戏还是AI性能比A770还要好一点,这说明新架构能效确实有大幅提升。

性能菜单的调优界面就是用来给显卡超频的,你可以在这里把GPU的功率限制拉到最大120%后更改频率偏移值来超频,偏移范围是-300MHz到1000MHz,甚至可以直接更改电压频率曲线来超频,显存频率的上限设置是22Gbps,散热风扇的温度与转速曲线也可在这里调节。

拆下显卡的散热器,就能看到锐炫B580 Limited Edition的PCB其实非常的短,只有15cm,所以后风扇的风可以直接吹透那个区域的散热鳍片,排风面积比上代增加了2.4倍。显卡采用8层PCB,采用6+4相供电设计,其中6相给GPU核心,4相给显存,GPU供电位于PCB左侧,而显存供电则分散布置在PCB上方与右侧。

显卡是标准的双槽设计,所以散热器也比较薄,但整体散热面积依然很大,整体都有做黑化处理,配有四根6mm热管把热量传递到散热鳍片上,GPU核心采用铜底导热,而显存与发热较大的Mosfet都有导热垫把热量传递到散热器上帮助这些元件散热。散热器的整流罩与背板都是塑料的,而中框则是金属材料,所以是中框在加固显卡防止PCB变形。

测试平台与说明

预览

本次测试平台采用酷睿i9-14900K处理器,搭配微星 MPG Z790 CARBON WIFI II 暗黑主板,内存是芝奇芝奇 幻锋戟 DDR5-7200 CL34 16GB*2套装。至于对比的显卡自然会包括上代的锐炫A770 16GB和A750,其他家的产品包括NVIDIA RTX 4060和AMD RX 7600。 需要注意的是锐炫B580和锐炫A770/A750用的不是同一个版本的驱动,锐炫B580用的是6252版本驱动,而A770和A750用的是6319版本,目前两代显卡的驱动暂时不通用。

基准测试

基准测试还是使用我们熟悉的3DMark来进行。其中,Fire Strike、Fire Strike Extreme和Fire Strike Ultra测试了显卡在DX 11中,1080P、2K和4K下的表现。而Steel Nomad、Time Spy和Time Spy Extreme测试的是显卡在DX 12中,2K和4K下的表现。Port Royal是针对显卡光追性能的测试。Speed Way测试的是显卡在DX 12U中的表现,包含DXR光追。

预览

虽然英特尔官方宣传是拿B580和A750来对比的,但实际上B580的3DMark所有测试的结果都显示它比A770 16GB性能还要强,从GPU规模来看B580只有A770的62.5%,但性能则要高出不少,在DX11的Fire Strike测试中高出32%~42%,而DX12的Time Spy测试也高出10%,最新的Steel Nomad测试则高4.6%,光追性能方面,Port Royal测试中B580比A770 16GB高了9%,Speed Way测试两者的结果就比较接近。

与RTX 4060对比,Fire Strike和Fire Strike Extreme都是B580领先20%多,到了4K的Fire Strike Ultra就变成领先37%了,Time Spy测试都是领先40%以上,Steel Nomad测试也是领先34%,即使是光追测试Port Royal也领先RTX 4060有29%之多,但到了Speed Way测试就变成RTX 4060领先了。

游戏测试

根据官方宣传,锐炫B580是针对2K游戏市场的,可以在最高画质下流畅运行游戏,所以我们这次测试就针对1080p和2K分辨率测试了11款光栅化游戏以及7款支持光追的游戏,基本上光栅化游戏我们选的都是极高或者超高的画质预设来进行测试,而光追游戏除了《赛博朋克2077》外都会拉到预设最大值,所有测试均没有开启超分技术,实际上锐炫B580拿来跑对硬件要求不高的4K游戏也是可以的,但由于它只有12GB显存,希望他不用XeSS来跑高硬件需求的4K游戏就有点离谱了。

1080p光栅化游戏

预览

在1080p不开启光追的情况下,锐炫B580就表现出了非常强劲的性能,它比上代A770 16GB整体性能提升了18.9%之多,比A750高出29.8%,代与代之间的性能提升非常大,与RTX 4060和RX 7600相比都是领先10.8%,当然了具体到不同游戏表现会有不一样,比如在《瑞奇与叮当:时空跳转》中B580就要比RTX 4060平均帧率高28.8%之多,但在《刺客信条:幻景》和《战争雷霆》中帧率其实是要比RTX 4060低的,RX 7600也是同理。

2K光栅化游戏

预览

把分辨率拉到2K,锐炫B580的12GB显存优势就显露出来了,与RTX 4060的性能领先优势拉开到19.9%,而与RX 7600的优势更是增加至22.7%之多,在2K分辨率下基本是全面领先对手。

1080p光追游戏

预览

说真的英特尔显卡的光追性能其实并不差的,至少和NVIDIA差不了多少,不像AMD显卡那样存在明显短板。在1080p开光追的情况下B580性能比A770 16GB高17.7%,较A750性能提升了31.6%,比RTX 4060高出11.4%,整体幅度和上面光栅化测试差不多,当然和RX 7600比光追就是另一回事了,性能完全高了一个级别,在一些游戏中甚至出现了两倍甚至三倍的帧率。

2K光追游戏

预览

在2K下开光追对显存要求更高,所以拥有12GB显存的B580就有先天的优势,性能比RTX 4060高了20%,和自己上代产品相比,较A770 16GB有14.8%的性能提升,和A750相比则提升了37.5%之多,2K光追游戏性能是RX 7600的两倍。

XeSS 2测试

目前只有《F1 24》这一款游戏支持XeSS 2,包括XeSS帧生成和Xe低延迟这两项技术,所以我们也只能用它来做这个测试,测试时使用2K开启光追下的最高画质,跑的自然是游戏自带的Benchmark程序,使用XeSS超分时会使用质量模式,使用PresentMon来记录1%帧率和显示延迟。

预览

使用原生分辨率时游戏的平均帧率是53fps,显示延迟69.5ms,开启Xe低延迟后显示延迟可直接降低至36.1ms,几乎减半,另外XeSS帧生成也是可以独立开启的,开启XeSS帧生成的时候会强制开启Xe低延迟,这点和DLSS 3相同,2K原生分辨率下开启XeSS帧生成能让游戏平帧率提升至94fps,提升了77%之多,此时显示延迟是44.5ms,可见开启帧生成确实会增加延迟,但Xe低延迟技术在一定程度弥补了这情况。

使用XeSS超分可以降低显卡渲染时间提高帧率,从而达到降低延迟的效果,使用XeSS超分+Xe低延迟时延迟是最低的,只有25.2ms,同时使用XeSS超分和XeSS帧生成延迟会略微增加至31.7ms,对人来说其实并不会很明显,但帧率可从77fps大幅提升至133fps,画面流畅度是有很大幅度提升的。

AI性能测试

这部分我们直接使用Procyon AI图像生成基准测试和最新的AI文本生成基准测试,前者使用Stable Diffusion 1.5和Stable Diffusion XL来生成图片,后者则是基于本地LLM的AI基准测试。

我们先来看看AI图像生成基准测试,由于这些显卡的显存问题所以只跑Stable Diffusion 1.5测试,测试会批量生成16张100迭代步数的图片,分辨率是512*512,批量大小是4。

预览

测试跑的是FP16数据格式,NVIDIA显卡跑的是TensorRT,英特尔显卡跑的是OpenVINO,AMD则只能用ONNX,我们记录了图片的平均生成时间。A750不知道是不是显存不够的问题导致生成速度相当慢,B580和A770 16GB就没这个问题,实际上官方公布的算力其实B580是要低于A770的,但实际上SD的出图时间B580要比A770更快,不过还是比RTX 4060要慢一点,A770 16GB和RX 7600是一个水平。

解下来是刚推出的AI文本生成基准测试,它可以反复且一致地测试多个LLM AI模型,测试的模型包括Phi-3.5-mini、Mistral-7B、Llama-3.1-8B 和 Llama-2-13B,在这测试中英特尔的显卡支持OpenVINO和ONNX,而NVIDIA和AMD的显卡只支持ONNX,不支持NVIDIA TensorRT确实有点可惜,为了让数据有可对比性,我们统一采用ONNX来运行这测试,实际上英特尔显卡跑OpenVINO性能会好得多,但不和NVIDIA TensorRT对比的话就没什么意义了。

预览

该测试有两个性能指标,一是首个令牌时间,也就是输入指令后到首个回答的间隔时间,二就是输出令牌速度,也就是每秒的回答速度。由于RTX 4060显存不够又不知道为啥不去借内存,导致LLAMA 2 13B无法运行,所以这个测试RTX 4060全部都标记为0。

B580在首个令牌时间响应速度上要比RTX 4060要慢,但文本生成速度是B580更快,与上代产品对比B580无论首个令牌时间还是输出令牌速度都比A770 16GB快得多,而A750速度与A770 16GB差不了多少,但由于显存不够运行LLAMA 2 13B需要借用内存,所以在那个测试中速度大降,RX 7600也有这个问题,所以说拥有12GB显存的B580显卡在运行这些AI应用时是比那些只有8GB显存的显卡有先天优势的。

温度测试

我们的GPU散热测试均在裸机状态(如果安装在机箱内,GPU温度会高出5℃左右)下进行测试,测试环境温度约为23℃。待机温度是开机以后记录5分钟,满载温度则是完成3DMark Speed Way压力测试后记录下,数据通过GPU-Z的Log to File功能记录,以下为温度测试曲线。

预览

英特尔锐炫B580 Limited Edition支持风扇待机停转,所以待机温度都是被动散热下的温度,经过5分钟的待机测试,温度缓慢降至36℃左右。满载状态下,最高温度位67℃,对于显卡来说这温度并不高,锐炫B580本身的功耗并不高,所以显卡的温度表现相当优秀。

预览

透过GPU-Z来看,英特尔锐炫B580 Limited Edition在待机时风扇是会停转的,让它在待机状态下完全无任何噪音,当负载和温度超过一定程度后风扇就会启动,满载状态下,风扇最高转速在1408RPM,平均转速在1350RPM左右,转速并不高。

功耗测试

通过我们手中的PCAT套件,可以分别精确地测量显卡PCIe、外接电源接口瓦特数,显卡最大功耗在3DMark Speed Way压力测试中获得,待机功耗则是在进入系统后记录1分钟取平均值。

预览

统计功耗测试的结果算出,这张锐炫B580 Limited Edition的整卡待机功耗平均为8W,满载功耗平均为178W,峰值功耗也只有213W,待机功耗比上代有非常大的改善,比较A770和A750待机30~40W基本是常态,而满载功耗也比A770降低了100多W,功耗大幅降低性能也高了许多,能耗比大幅改进。对于这样级别的显卡功耗来说,电源的话如果平台其他部件的功耗不高那么可以600W的电源来带动,如果其他部件的功耗也较高建议至少700W的电源起步。

噪音测试

全文总结

两年过去后,英特尔再一次在显卡市场上给我们带来了惊喜,这次的Xe2 Battlemage显卡的表现确实非常不错,说真的之前发布时听到锐炫B580的定价是2049元比A770 16GB还贵是不是有点离谱,因为从名字来看它应该是锐炫A580的继任者,但这轮测试下来发现这个价挺合理,因为B580确实是要比A770更强,叫B580多少有点让人低估了它。

预览

锐炫B580在1080p分辨率下性能较A770 16GB提升了18.3%,在2K下则提升了15.3%,这种代与代间性能提升确实非常不错,而且要知道B580的GPU规模只有A770的62.5%,显存容量与位宽都只有后者的75%,在规模缩小的情况下性能还有这个级别的提升说明新的Xe2架构效率确实有了很大幅度的提升,而且AI性能也一同提升了,AI生成图片和文字的速度更快,当然了12GB显存容量会比16GB有一定限制,但和同价位的8GB显存显卡比起来也是个不小的优势。

和RTX 4060相比在1080p下领先11.1%,在2K分辨率下领先20%,这就是B580配12GB显存所带来的优势,因为现在8GB显存在2K分辨率下确实不太够用,配12GB显存可以大幅改善这问题。和RX 7600相比情况就会比较复杂了,虽然分辨率的影响也不小,但RX 7600的光追性能太弱了,纯光栅对比的化B580领先RX 7600约16.7%左右,但一对比光追游戏的性能,B580就会大幅领先RX 7600有91%之多。

在能耗比方面B580也比上代有了很大的改进,之前锐炫A系列显卡被诟病的待机功耗问题解决了,现在待机时功耗可低至个位数,如果用高刷屏的话待机功耗可能会升到10W以上,但也比上代有很大改进。B580的满载功耗也只有178W左右,和A770比相比是大幅下降,因此显卡的满载温度也不高,这也使得显卡工作起来比较安静。

  I   II   III   IV