Intel GPU折腾日志 01

显卡硬件 #Intel#A770
目录

好久没更新博客了,来更新一下博客。


Intel dGPU

去年用了段时间的A580,现在换到了A770 16G,对I卡也算是非常了解了。这篇文章来简单介绍一下。

引起我注意的起因

我以前也以为市面上只有N卡和A卡,但是自从被RX580大矿卡坑过以后,也了解到Intel原来也有做独立显卡,收集资料了解到了I卡的一些优势,后来换显卡的时候就优先考虑了I卡。

I卡的定义

Intel独立显卡,其实最早有I740之类的,在A系列(Alchemist)出来之前,也有DG1这种东西,所以Intel独立显卡方面也是有一些产品的,但普遍认知里不是所有Intel生产的独立显卡都算I卡。

目前大伙普遍把A和B系列的游戏卡和专业卡叫作I卡,至于DG1,那不是外置核显吗?XD

I卡的优点

当初选择I卡时是考虑到了以下优点。

  1. 显存给的慷慨。A770 16G全新只需要1800上下,二手只需要1200上下,是最便宜的无矿16G显卡,同价位性能比它好的显存没它大,显存比它大的性能没它好,要么就是矿卡。
  2. 编解码单元给力。有两组编解码引擎,导出高分辨率高码率视频非常快,要知道这卡是22年的卡,但是25年老黄的50系显卡才追上A770的AV1和H264编解码性能,而且在H265上I卡还是最强的。
  3. 驱动精简。在发文的这个时间,I卡驱动大小是御三家显卡里最小的,包体只有700-800MB,而且是从去年的1-1.5GB逐步降下来的,而且功能还逐渐地在增加/补齐,可以看出Intel显卡驱动部门还是很有实力的。
  4. 外观好看。I卡无论是公版还是OEM版本,没有一款是丑的,只是可惜没有二次元版本,不然可能卖的更好一些。

I卡的缺点

优点说完了,我们也来说说缺点。

  1. DirectX兼容性。I卡的驱动是面向现代图形API开发的,对DX12和Vulkan适配比较好,但是对DX11是使用模拟的方式来兼容的,所以跑DX11或DX9的老游戏时发挥不出应该有的性能。
  2. AI软件兼容性。Intel官方自己喜欢推OpenVINO,但是这玩意是从以前搞CNN的转型过来的,这就导致它跑LLM非常的蛋疼,一个是必须转换成它自己的OpenVINO IR格式,另一个就是性能不行。说起来其实无论是ONNX Runtime、OpenVINO还是llama.cpp sycl,性能在I卡上都不咋样,只有用驱动跑的llama.cpp vulkan稍微好一点。这些跑的慢其实是有原因的,我们后面再聊。
  3. 待机功耗高。I卡的PCIE状态管理太严格,导致大部分主板都不支持L0/L1的状态切换,最后的结果就是待机功耗一直下不去,其他的显卡可能待机功能十几二十瓦,中高端I卡(A580/A750/A770/B570/B580)普遍40-50瓦,待机费电。
  4. 对系统、主板等有要求。一些太老的主板,不支持Resizable BARAbove 4G Decoding的话,显卡性能大幅下降。还有必须使用UEFI来启动,以下是买I卡必先查的一些事项。
  • 使用Win10 22H2以上的系统(官方驱动支持)。
  • 系统盘使用GPT分区,用UEFI引导启动。
  • BIOS支持Resizable BARAbove 4G Decoding
  • BIOS支持关闭CSM或者在CSM选项中可以设置BootStorageVideoUEFI
  • 显示器最好有Display Port(俗称DP)接口,因为I卡的HDMI是从DP转出来的,不是原生支持。
  1. 驱动程序功能较少。目前I卡在Windows上的用户态驱动软件,缺乏滤镜、性能调优、录屏等功能,期待后续更新。

A系列与B系列的区别

A系列,即Xe-HPG是I卡的第一代架构。

B系列,即Xe2-HPG是I卡的第二代架构。

这样看来A系列相比于B系列肯定是有很多不足的,主要体现在以下几个方面:

  1. 核心架构性能。B580只有20个Xe2核心,是比A770的32个Xe核心要少的多的,只有62.5%的规模,但是B580的FP32算力差不多相当于70%的A770,XMX FP16算力差不多相当于A770的84%。这里我们列一个简单的方程。

A系列的每颗Xe核心FP32算力:

0.614375TFLOPS=19.66TFLOPS320.614375 \:TFLOPS=\frac{19.66 \:TFLOPS}{32}

B系列的每颗Xe2核心FP32算力:

0.6835TFLOPS=13.67TFLOPS200.6835 \:TFLOPS =\frac{13.67 \:TFLOPS}{20}

A系列的每颗Xe核心的XMX FP16算力:

4.3125TFLOPS=138TFLOPS324.3125 \:TFLOPS =\frac{138 \:TFLOPS}{32}

B系列的每颗Xe2核心的XMX FP16算力:

5.8TFLOPS=116TFLOPS205.8 \:TFLOPS=\frac{116 \:TFLOPS}{20}

由此可见Xe2的架构提升还是很大的,特别是XMX的提升幅度非常大。

  1. DirectX性能。B系列的DX11性能显著好于A系列,即便B580核心算力比不过A770,但是DX11游戏帧数还是更高的。
  2. 指令/寄存器宽度。我们看下面这张表就知道了。
B580A770
架构Xe2-HPGXe-HPG
代号BattleMageAlchemist
Xe核心2032
XVE/Xe核心816
XVE160512
硬件线程数/XVE88
硬件线程数12804096
寄存器宽度512 bits256 bits
SIMD宽度168

可以看出A系列在设计上是不如B系列的,B系列设计得更成熟一些,这可能也是A系列软件优化不如B系列的原因。

目录