设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

40 年来最大变革,英特尔 Meteor Lake 解析

2023/9/20 9:29:34 来源:IT之家 作者:阿迷 责编:阿迷

在今年英特尔 ON 技术创新大会上,英特尔正式对最新的 Metror Lake 架构进行介绍,这是英特尔首次推出 Intel 4 工艺产品。进一步推进摩尔定律四年五个节点的目标,目前英特尔正在量产 Intel 7 工艺的处理器,此次大会上公布的 Intel 4 工艺的处理器也在爬坡生产中。

预计到 2023 年下半年,英特尔将投产 Intel 3 工艺处理器,2024 年上半年投产 Intel 20A 工艺处理器,2024 年下半年投产 Intel 18A 工艺处理器。英特尔 12 代、13 代酷睿已经顺利推出,并提供大量创新型技术,未来英特尔将继续在 PC 和边缘计算领域提供新的创新技术,而此次推出的 Meteor Lake 将是一个重要的节点,它采用了英特尔首个 AI 加速的 NPU,能在 PC 上高效的实现本地推理,为未来 Arrow Lake 和 Lunar Lake 带来先导技术支持。

Meteor Lake 是英特尔公司重要的发展拐点,除了独立的 NPU 架构,还有更多额外的引擎,接下来,我们来详细看看这次 Meteor Lake 带来哪些改变。

Meteor Lake 架构

Meteor Lake 包括四个独立的模块,通过 Foveros 3D 封装技术封链接。其中包含计算模块、SoC 模块、图形模块和 IO 模块。其中计算模块采用最新一代的能效核和性能核为架构以及增强功能,这一部分采用最新一代 Intel 4 制程工艺,能耗相比此前有重大进步。

SoC 模块集成了 NPU、低功耗岛能效核、Wi-Fi 和蓝牙,并支持 8K HDR、AV1 编解码器、HDMI 2.1 及 DP2.1 标准。其中 NPU 部分能带来高效的 AI 功能表现,并兼容 OpenVINO 等标准化程序接口。

图形模块部分集成了英特尔锐炫图形架构,提供的高达前代 2 倍性能的图形表现能力。

因为在 SoC 上面 Meteor Lake 有了低功耗的能效核,在匹配已有的能效核和性能核上,就组成了一个三阶的高性能混合架构,对比 12 代和 13 代酷睿产品,英特尔在混合架构上有了一个新的层级。

在 AI 的支持上,Meteor Lake 提供 NPU 能与所有计算引擎的内置 AI 功能结合实现更高能效的 AI 计算。其中 GPU 具有性能并行性和高吞吐量,非常适合在媒体、3D 应用和渲染管道中引入 AI 功能。NPU 则是一个专用的低功耗 AI 引擎,用于维持 AI 运行和 AI 卸载。CPU 则具有快速响应能力,非常适合轻量级、单推理、低延迟的 AI 任务。通过 GPU、NPU、CPU 不同层级的 AI 算力网络,Meteor Lake 能很好的实现本地 AI 能力。将 AI 从云端引入到客户端 PC 和企业边缘 PC。

我们顺着 Meteor Lake 的整体架构再来细看一下每个具体部分。首先来看下这次变化比较大的 SoC 模块,这部分包含两个总线,分别是 NOC 总线和 IO Fabric 总线,其中 NOC 总线特点是高带宽、快速响应,能让挂载在该总线上的设备能快速、低功耗的访问整个内存,同时 NOC 总线也起到连接计算模块和图形模块的作用,SoC 模块内与该总线直连的设备包括低功耗的能效核、内存控制器、多媒体区块、NPU、IPU 等。

底下的 IO Fabric 总线主要连接 PCIe、USB 3/2、SATA、Wi-Fi 与蓝牙、网络、传感器、音频等相关的设备,另外还有芯片级别的 SSE 安全引擎和平台级的安全模块。通过 IO Fabric 总线,与外部的 IO 模块连接,IO 模块中集成了 USB 4、Thunderbolt 4、PCIe 控制器。

最新的 Meteor Lake 每个模块都有专属的电源管理模块,这些模块会相互协同工作,与上层操作系统和和软件协同,以此实现模块化、系统级别的电源管理。SoC 模块中的低功耗岛强调在极致性能前提下实现更低的能耗以此延长电脑使用时间,许多外部设备模块都集中在 SoC 上,SoC 上集成的大部分功能可以满足大部分用户大部分的使用需求,在高性能计算和图形计算上就要用到计算模块和图形模块。

接下来就是不同核心之间调度的问题,考虑到 SoC 中的低功耗效能核和计算模块中的性能核与效能核都参与 PC 的计算过程,因此任务调度对于 Meteor Lake 而言也是一个重要的话题。在此前性能核和效能核的二级混合架构基础上,SoC 低功耗效能核作为第三级混合架构无疑增加了调度的复杂度。

针对不同线程日常的使用,英特尔硬件线程调度器也对 SoC 中低功耗效能核进行适配。这次英特尔与微软共同将常见的指令进行分类。

Class 0 代表性能核和效能核在执行指令时每个时钟周期内指令数量基本一致的情况,Class 1 代表性能核在每个时钟周期内指令数量大于效能核的情况,比如浮点运算指令,Class 2 代表性能核在每个时钟周期内指令数量远远大于能效核的情况,比如 AI 计算,Class 3 则代表能效核每个周期指令数量大于性能核的情况。根据指令的不同,英特尔线程调度器就会提供一个反馈表,对每个核心进行打分,其中 EE 代表能效,Perf 代表性能。分数高的核心就会被优先推荐给操作系统使用。我们以上图为例,如果操作系统想要追求性能,那么英特尔线程调度器就会推荐使用 P-Core N,操作系统根据这些推荐就会将相关任务放到这一核心上;如果操作系统想要追求更好的能耗表现,那么线程调度器就会推荐 E-Core N。针对不同等级的任务类型,线程调度器能动态的为操作系统推荐合适的核心。

与之前的硬件线程调度相比,Meteor Lake 增强了对操作系统的反馈,当其他进程占用功耗的时候,核心功耗会被动态分配,以此境转的报告整个核心和每个核的能力,通过内部功耗比的评估和判断,Meteor Lake 上的硬件线程调度器更加精准的将反馈表提供给操作系统。

全盘对平台的系统操作模式、软件操作模式、平台硬件特征等特点,纳入控制逻辑中,让硬件线程调度器对三阶高性能混合架构有更好的支持。

图形和媒体部分,这里 Meteor Lake 将原先位于 GPU 的多媒体和显示引擎转移到 SoC 模块中,IO 模块上有一个物理显示接口负责显示信号的输出。

升级后的多媒体引擎最高支持 8K 60Hz 10bit HDR 视频解码和 8K 30Hz 10bit HDR 视频编码,并支持 VP9、AVC、HEVC、AV1 以及其他传统格式。

显示引擎部分则对功耗进一步优化,并进行全路径的压缩,当遇到显示输出和显示解决方案不匹配的情况,通过这一压缩技术能很好的提供显示输出。

另外这一显示引擎还支持 HDMI 2.1、DP2.1 以及完整的 eDP 1.4 输出规范,分辨率最高支持 8K 60Hz HDR,或 4 个 4K 60Hz HDR 输出。

接下来是 Meteor Lake 的图形模块部分,相比于上代显卡产品,这次 Meteor Lake 拥有更高的主频和更低的典雅,在互联的缓存上也做了很多优化,核心频率得到提升。

Meteor Lake 拥有 8 个 GPU 核心和 128 个矢量引擎,几何图形渲染管线增加到 2 条,另外还有 8 个采样器和 4 个纹理映射单元,另外还新增了 8 个硬件光追单元。

这次 Meteor Lake 的图形模块继承了英特尔独显产品的一些先进特性,同时对 DX12 Ultimate 进行了更多的优化,光追在游戏、生产率和科学研究上也带来了更好表现。

在 Blender 软件下,相比于 CPU,Meteor Lake 的 GPU 能带来 2 倍以上的性能提升。

其他技术方面,Meteor Lake 带来了全新的 Wi-Fi 7 网络,这一网络技术大大提高了数据吞吐率,并提高了多路并发性能。另外还 Meteor Lake 还对蓝牙 5.4 规范进行支持,包括新的音频编解码规范,能够大大降低功耗时延,提升音频品质。

英特尔连接管理软件 ICPS 在业界是很受欢迎的,在 Meteor Lake 上升级到 3.0 版本,继续在设备的无线和有线网络连接上做提升。英特尔的 Unison 多设备互连软件可以跨生态系统、跨设备种类,不仅是 Windows 操作系统,我们还可以支持 Mac OS、iOS、iPAD OS,可以支持各种安卓智能设备,跨生态系统、跨设备种类,通过英特尔 Unison 软件,把 PC、手机、平板以及其他的智能设备做互联互通。这是一个很成熟的软件方案,在 Meteor Lake 上英特尔也会推出第二代 Unison 软件。

再一个就是 Wi-Fi Sensing 技术,这项技术利用笔记本现有的 Wi-Fi 和天线,在不增加额外硬件基础的情况下,通过软件做到人体接近感应,比如唤醒操作系统,或是人体远离自动降低功耗锁定系统等,未来英特尔也将会利用 Wi-Fi 进行定位或手势识别等。

Meteor Lake 也对 Thunderbolt 4 有很好的支持,通过更强大的吞吐能力和带宽表现,实现存储、显示、虚拟化方面的扩展。

Intel 4 制程及 Foveros 工艺

接下来,我们看一下 Meteor Lake 所采用的 Intel 4 制程工艺。根据此前英特尔公布的 IDM 2.0 战略,英特尔计划在四年实现五个制程节点,Intel 4 是这一战略中的第二个节点。

此前的 Intel 7 制程是英特尔能够持续提升节点性能的力证,其晶体管优化聚焦于性能。而这次 Meteor Lake 伤的 Intel 4 制程工艺旨在利用极紫外光刻技改善良率和面积微缩,进一步实现高能效,为 Intel 3 奠定基础。

目前正在开发的 Intel 3 制程工艺将带来密度更高的设计库,增加驱动电流的晶体管并降低通孔电阻,更多的使用 EUV 光刻技术。未来的 Intel 20A 标志着英特尔进入埃米时代,将采用 Ribbon FET 和 PowerVin 技术,而后续的 Intel 18A 则继续基于 Intel 20A 打造,将每瓦性能再提升 10%,并奠定英特尔制程节点的领先地位。

这次 Meteor Lake 所采用的 Intel 4 实现了 2 倍面积微缩,以此带来高性能逻辑库,同时还引入了多项创新。

其中 EUV 光刻技术简化和改进互联架构设计,虽然 EUV 光刻机售价高昂,但确实给英特尔的新制程带来了巨大的简化。Intel 4 在 EUV 加持下,掩码减少了 20%,工艺步骤减少了 5%,同时 Intel 4 还兼容 EMIB 和 Foveros 封装技术。

封装技术方面,英特尔在今年马来西亚客机巡展上介绍从 Meteor Lake 开始,Foveros 封装技术将引入客户端产品,打造性能更加强大的笔记本电脑。

虽然 13 代酷睿处理器的多种功能都被整合到 SoC 上,但随着这些功能日趋多样,并变得越来越复杂,设计和制造这些单片式系统级芯片的难度越来越大,成本也越来越高。为了解决这一技术难题,Foveros 封装技术就出现了,它利用高密度、高带宽、低功耗互连,将多种制程工艺制造的诸多模块组合成大型分离时模块架构组成的芯片复合体。

此前,英特尔在数据中心 GPU Max 系列产品中首次采用了扩展的 Foveros 封装技术 ——Co-EMIB 实现对 GPU Max 产品封装。而此次全新推出的 Meteor Lake 处理器将首次将 Foveros 技术引入客户端产品中。

Meteor Lake 处理器在架构上的巨大调整,带来了封装上的挑战,这一是一款三模块芯片,提供大电容的图形模块、使用 Fovers 36X 间距芯片连接的 SoC 模块以及采用 Intel 4 制程工艺打造的计算模块,其中计算模块的 IO / 供电和芯片间路由采用金属层。

由于 Meteor Lake 架构整体结构的复杂性,这对封装带来更多的挑战,其组装流程共分为五个步骤,首先从晶圆厂和外部代工厂将晶圆切割成单个芯片;其次则对单芯片进行测试确保芯片质量才能进入 Foveros 组装阶段,这种测试是保障异构设计可靠的关键所在;第三步则对基板上的晶圆组装,通过芯片附着、底部填充、晶圆模具组装等操作,以及碰撞、钝化、研磨、抛光等制造流程,实现晶圆组装;紧接着,Meteor Lake Foveros 复合体在 BGA 基板上进行封装组装,目前这种复合体兼容现有的封装组装工具和工艺,只需要进行少许优化即可完成;最后则对封装好后的芯片进行测试,包括压力、老化测试以及类测试、系统级平台测试,测试完成后,芯片即可推向市场进行组装生产。

Foveros 先进工艺相比于 Raptor Lake 有很多优势,其凸点间距只有 36u,迹线宽度小于 1 微米,凸点密度提高近 8 倍,迹线长度小于 2 毫米,带宽达到 160GB/s/mm,功耗小于 0.3pJ / 位。这样的提升,大幅降低了低功耗晶片互连分区开销,同时小区块也提高了晶圆的良率,另外能为每个区块选择理想的硅工艺,以此降低成本和性能,简化 SKU 的创建可以更容易提高定制能力。这些都为 Meteor Lake 良品率的提升和成本控制带来益处。

目前,英特尔正进行超过以支持晶圆级组装的 Meteor Lake 和后续产品,这些新的设施将为 Foveros Direction 9 微米和未来产品提供产能。

此前英特尔从 FCBGA 到 FCLGA 再到 EMIB 和 Foveros,以及后续的 Foveros Direct 封装技术变革,将使英特尔成功践行四年五个制程节点的承诺,预计在 2024-2025 年实现 2.5D 封装。

NPU 开启 AI 新篇章

Meteor Lake 处理器拥有独立的 NPU 加速单元,通过与 CPU、GPU 配合形成三层 AI 加速架构,互相协同,带来强大的人工智能体验。此次 Meteor Lake 打造的 NPU 架构主机接口和设备管理支持微软的新驱动程序模型,这是的 Meteor Lake 的 NPU 能在确保安全性的同时,支持微软加速驱动程序模型。

而内存管理单元提供多种情况下的隔离,支持电源和工作负载调度,从而实现快速低功耗状态转换。

Meteor Lake 的 NPU 由多个引擎架构构成,该架构配备两个神经计算引擎,可以共同处理单一工作负载或各自处理不同的工作负载。在神经计算引擎中包含两个主要的计算组建,分别是推理古盐道和 SHAVE DSP,其中推理管道是高能效计算的核心驱动因素,通过最大限度的减少数据移动并利用固定功能运作来处理常见的大计算量任务,可以在神经网络执行中实现高效节能。

绝大多数计算发生在推理管道上,这个固定的功能管道硬件支持标准的神经网络运作。该管道由一个乘积累加运算阵列、一个激活功能块和一个数据转换块组成。

SHAVE DSP 是一款专为 AI 设计的高度优化 VLIW DSP,流式混合架构向量引擎可以与推理管道和直接内存访问引擎一起进行管道化,实现在 NPU 上并行进行的真正的异构计算,从而最大的提高性能。另外还有 DMA 引擎优化编排数据移动,以此实现最高的能效和性能。

像 MobileNet 网络模型,当它复杂度比较低的时候,使用 CPU 处理是比较快、比较有效的。但是高复杂度、大规模运算使用 NPU 更合适,因为 NPU 的处理能力比 CPU 要高,对 AI 的工作负载方面,处理能力更高一些。

Stable Diffusion 作为一个图像网络结构,在生成式 AI 中不同场景下所需要的算力密度不同,在对自然语言生成图像过程中,主要包含文本解码器、Unet、VAE 三个核心流程,在 CPU、GPU、NPU 上的表现并不相同,所带来的时间、功率、效率也不尽相同,如果通过 Meteor Lake AI 算力协同,那么就可以带来更综合的表现,Unet 正向提示词跑在 GPU 上面,负向提示词的 Unet 跑在 NPU 上,这个时间缩短到 11.3 秒,因为有 GPU 的参与,所以功耗为 30W。由此可见不同的任务放在不同的架构上承担,这样整体性能很好,功耗也很低。

目前,英特尔正与业内超 100 家合作伙伴进行终端侧 AI 应用测试,将 AI 引入日常生活中,在 AI API 层,目前英特尔已经与微软共同开发出 WinML、ONNX RT、DirectML 等接口,以及英特尔自家的 OpenVINO,这些 API 接口都能更好的调用 CPU、GPU 和 NPU 的底层资源,帮助 AI 应用更好实现算力的使用。

除了 Meteor Lake 上最新的 NPU 模块,英特尔 GPU 在 AI 加速能力上也是非常强大,通过 DP4a 指令集,英特尔 GPU 可以实现一个周期 64 个 INT8 整型累加计算。这在此前英特尔 GPU 架构解析中都有提到,这里不再赘述。

通过 CPU、GPU、NPU 三层 AI 算力网络,Meteor Lake 将客户端处理器的人工智能加速能力推到了新高度,在这样的算力网络支持下,本地大语言模型、AIGC 相关话题可以跳脱云上算力,使得 AI 在边缘计算领域进一步深化。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关文章

关键词:英特尔Meteor Lake

软媒旗下网站: IT之家 辣品 - 超值导购,优惠券 最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件: 魔方 酷点桌面 Win7优化大师 Win10优化大师 软媒手机APP应用