Penryn — 下一代英特尔酷睿2 处理器
作为首个基于英特尔全新 45 纳米高 K 硅制程技术的处理器家族,Penryn 充分利用了45 纳米技术在芯片中新增加的晶体管。这一 45 纳米高 K 下一代英特尔酷睿2 和英特尔至强处理器家族可提供大量全新的架构特性和进步,从而提升软件运行速度,改进能效表现。
提升软件运行速度
Penryn 家族的诸多微体系结构改进,可提高多种软件的性能。
全新英特尔SSE4 指令
Penryn 家族包含英特尔SIMD 流指令扩展 4(SSE4)指令。英特尔SSE4 指令是自 2001 年以来最重大的媒体指令集架构改进。这一全新的指令集进一步扩展了 Intel64 架构指令集架构的特性,可更好地利用英特尔下一代 45 纳米硅制程技术,扩展英特尔架构的性能和能力。英特尔SSE4 指令进一步拉开了与SIMD(单指令多数据)软件的性能差距,并支持 Penryn 微处理器为多种 32 位及 64 位软件提供更卓越的性能和能效。此外,图形、视频编码和处理、3D 成像和游戏等应用也可从中受益。该指令还将有助于音频、图像和数据压缩算法等多种高性能应用的运行。
Penryn 家族所采用的英特尔SSE4 可通过以下方式提升性能:
* 增加对两个不同向量的 32 位整数乘法操作的支持
* 引入 8 位无符号的最小/最大操作 16 位和 32 位有符号和无符号的版本
* 引入诸多特性,以有效地改进编译器对整数和单精度代码进行向量化的能力
– 混合(Blend)、测试与变数(Test and Round)和符号零扩展(sign/zero extension)可直接取代现有的冗长操作(lengthy operation)
– 插入(Insert)和提取(Extract)是收集(gather)(探查,lookup)、分散(scatter)、跨距加载(strided load)和跨距存储(stride store)的构建模块
* 添加高度专用的操作,从而带来显著的应用级增益:
– 视频编码加速功能
– 浮点点积操作(对于游戏和 3D 内容创建非常重要)
– 流加载指令(对于视频处理、成像,以及在图形处理器和处理器之间共享数据的应用非常重要)
英特尔SSE4 指令能够带来非常显著的性能增益。例如,流加载指令可提高从图形帧缓冲区中读取数据的带宽。通过获取完整的高速缓存行(每次 64 字节而不是 8 字节,并可将其保存在临时缓冲区),该指令还可实现理论上高达 8 倍的读取带宽改进。
增强的大型英特尔高级智能高速缓存
Penryn 处理器采用增大 50% 的大型二级高速缓存并搭配24路组联(24-way associativity)设计,可进一步提高命中率并最大限度提升使用率。其中,双核 Penryn 处理器将采用高达 6 MB 的二级高速缓存,而四核处理器的二级高速缓存则将高达 12 MB。大型高速缓存可以提高每个执行内核从性能更高、更有效的高速缓存子系统中访问数据的几率,从而有助于改进性能和效率。
Penryn 家族的高速缓存还具备增强型高速缓存线路分离加载(enhanced cache line split loads)功能。当读取数据值并且数据的各部分位于不同的高速缓存线路时,分离加载(split load)功能即会启动。即使数据没有完全对齐,从单一的高速缓存线路中读取数据也比从两个高速缓存线路中读取数据快数倍。Penryn 家族的增强型高速缓存线路分离加载功通过先于其它加载(load)或存储(store),来推测性地分配分离加载的两部分,极大地提高了性能。这样也可加速执行数据扫描的特定应用的性能,如视频动作估算等。
速度更快的内核与系统接口
Penryn 处理器家族的内核速度(某些版本达3 GHz以上)将超过上一代英特尔酷睿2 处理器家族。此外,与当前的1066 GHz 和 1333 GHz 相比,它的前端总线速度将提升至1600 GHz。这将显著改进系统的整体性能。
增强型英特尔虚拟化技术
Penryn 可使虚拟机迁移(登入/登出)速度平均提高25-75%。而这一优势仅通过改进微体系结构即可完全实现,无需再修改虚拟机软件。(通过利用虚拟化技术对计算机实行分区,系统将可以在每个分区中运行不同的操作系统和软件,这样便能更充分地利用多核处理性能,提高效率。并且,由于单个机器还可作为多个虚拟计算机运行,所以此技术还有助于削减成本。)
超级洗牌并行执行引擎(Super Shuffle Engine)
通过实施全宽、单通道、128 位的 shuffle 单元,Penryn 处理器能够在单个周期内执行全宽shuffle。这样就可以将大多数字节、字或 dword SSE 数据 shuffle 操作的运行速度提升一倍,并可显著降低具有打包(pack)、拆包(unpack)以及更宽打包移位(wider packed shift)等 shuffle 操作的SSE2、SSE3 和英特尔 SSE4 指令的延迟与吞吐量。因此,这项功能将有助于一系列 SSE 算法的总体性能改进。
快速 Radix-16 除法器(Fast Radix-16 Divider)
Penryn 处理器可提供更快捷的除法性能。相比上一代产品,该处理器在科学计算、3D 变换和其它数学密集型函数方面的除法器运行速度提升了约一倍。全新快速除法技术 — radix 16的采用,加快了浮点操作和整数操作的分离。(radix 4 算法在每次迭代中可计算 2 位的商)。提升至 radix 16 算法后,可在每次迭代中计算 4 位的商,从而使延迟降低了 2 倍。)
存储转发(Store Forwarding)
为提升同一个管道中跨 8 字节地址边界的“不对齐”存储结果的读取速度,Penryn 处理器可以将存储结果立即转发给“加载(sotre)”,而不必等待存储完成和写入内存的操作。
提升操作系统(OS)同步原语性能(Synchronization Primitive Performance)
当代码开始进入临界区,并需要独 I/O 设备等资源时,某些操作系统可临时阻断或“屏蔽”中断。通过更快的“清除中断/设置中断” (CLI/STI,clear Interrupt/set Interrupt)功能,Penryn 处理器可以更快地进入/离开这一模式,从而显著提升性能。此外,它还能够更快地执行“锁定”(locked)指令(如 XCHG、ADD/ XADD/NEG/BTS/AND 和 CMPXCHG)。Penryn处理器亦可支持迅速地访问时间标记计数器(读取时间计数器或 RDTSC),以便满足基于数据库或交易处理的服务器工作负载对于此项函数的频繁调用需求。
提高能效
除去英特尔 45 纳米高 K 硅制程技术和英特尔酷睿微体系结构的节能特性外,Penryn 家族还采用了另外两项重要的新特性:深度节能技术(Deep Power Down Technology)和英特尔动态加速技术。深度节能技术(Deep Power Down Technology)这是一项全新的高级电源管理状态(C 状态),它可显著降低闲置期间的处理器功耗,并且消除内部晶体管的漏电流对功耗的影响。这项最新的处理器“睡眠”状态是处理器所能达到的最低功耗状态,能够极大地延长笔记本电脑的电池使用时间。它可使 Penryn 实现比 Merom(面向移动平台的上一代英特尔酷睿微体系结构)最低功节省。
在进入深度节能状态后, Penryn 处理器会刷新内存,并在内部保存处理器微体系结构的状态,切断内核与二级高速缓存的供电来源。在深度节能状态中,芯片组能在不唤醒处理器的状态下,继续为输入/输出(I/O)提供内存流量。但是,一旦需要采用内核时,电压便会升高,这时时钟启动,处理器重新设置,微体系结构状态也将恢复,并继续执行指令。
我们知道,C 状态程度越深,进入此状态和返回活跃状态的能源损耗也就越高。因而,过于频繁地切换至深度 C 状态导致净能量的损失。为防止上述情况的发生,Penryn 采用了自动降级功能,它借助智能的试探法,来确定闲置期间的功耗节省能否补偿关闭和重启处理器的能源成本。如果不能,则深度节能技术将会要求处理器降至深度较浅的电源管理状态 — C4 状态。这样即可达到节能的效果,又可将能耗成本控制在一定范围内。
增强型英特尔动态加速技术
为进一步改善单线程应用的性能,英特尔对当前英特尔酷睿2处理器中所用的英特尔动态加速技术进行了增强。当一个内核处于空闲状态时,该增强特性可利用该内核释放的性能扩展空间,来提升另一个仍处于激活状态的内核性能。(想像一下带有两个淋浴头的淋浴器。当一个淋浴头关闭时,另一个淋浴头的水压或性能就会增强。)如果一个内核处于 C3 或更深度的 C 状态,那么通常用于该闲置内核的电力便可应用于另外一个活跃内核,同时可确保功耗仍在处理器的热计功耗规范范围内。这样便可提高单线程应用的运行速度,进而改善许多应用的性能。
展望 2008:英特尔的下一代微体系结构