多核心運算平台的節能設計

DIGITIMES企劃
2014/09/30 00:00
分享

AMD APU、Intel Core i系列處理器，都開發出各針對不同CPU/GPU核心做工作頻率╱電壓動態調校的技術。Source：AMD/Intel

10年前PC處理器從時脈調校轉向多核心架構，並藉由製程精進，從記憶體控制器、繪圖晶片到週邊處理晶片電路單元無所不包，也使系統業者對其電源穩壓電路的設計煞費苦心；新世代處理器晶片直接整合高效率變壓細胞電路與特殊封裝模組，同時藉由不同運算電路之間的獨立電壓調控，以及更多的節電模式，來跟早已邁向多核心的智慧手機、平板等行動裝置，一爭功耗效能的王座…

單核心CPU的時脈與節能設計

英特爾於22奈米Haswell、14奈米Broadwell處理器內建高性能交換式變壓電路，提升各運作電路的獨立工作頻率？電壓調校效能。Source：Intel

異質化多核心CPU，以不同負載最佳化的核心做晶圓？封裝組合。Source：ARM/Intel

24年前PC剛問世時，其採用的8086/8088是採用3.3或3.45V標準工作電壓設計的16位元處理器。由於處理器功率(p)=介電常數(c)x工作電壓(V)的平方x工作頻率，也就是處理器設計功率(廢熱)跟工作頻率、工作電壓的平方值成正比。

在相同製程下，處理器頻率提升20%，效能值變為1.13，但熱功率會提升為1.73(+73%)：反之頻率降低20%，效能值減為0.86(86%)，但熱功率可以降為0.5(50%)。

因此英特爾於1995年Pentium Pro/Pentium MMX時代導入了穩壓模組(Voltage Regulator Module；VRM)的規範，藉由定義十幾到幾十組不同工作頻率？電壓的陣列組合，讓處理器能夠因應不同的負載而調低工作頻率與工作電壓，使整體熱功率能維持在一定區間內。

但即便有摩爾定律每2年的製程進化，以一定的矽晶粒面積(成本)下，塞入更多的電晶體、邏輯閘電路來設計、強化處理器的效能，但由於製程進化所縮減的工作電壓，仍不足以抵銷因為線路微縮造成漏電、工作頻率調升所需的電壓微調，所造成處理器熱功率成等比級數的飛快提升，若不更弦易轍，處理器晶片溫度將會直逼太陽表面的溫度。

在2003？2004年間，各CPU研發廠商均面臨到處理器熱功耗╱廢熱提升比效能還快的功耗之牆，也因此各CPU廠不約而同，改以驗證過的單一核心，藉助半導體IC製程技術或封裝技術，將2顆、4顆以對稱方式疊加起來，套前面的公式，2顆各降20%頻率的CPU核心疊加起來，總功耗跟1顆全速CPU差不多，但2顆CPU核心搭配雙線緒軟體全速發揮下，效能值可以提升至1.87(+87%)。等2年製程再進化，可以用一半的功耗，再加倍疊出4核心的處理器，同時維持2年前甚至多年前的熱功率，並擁有有較佳的效能？功耗比。因此各CPU廠商紛紛朝向多核心處理器開發，CPU時脈停留在4GHz已有一陣子。

多核心與SoC各功能電路的電壓調校

在CPU封裝裡只有CPU的單純年代，CPU的電力由獨立的VRM電壓調整模組供應，VRM在同一時間內僅對CPU輸出一種電壓，到2008年CPU剛開始內建記憶體控制器時都還是如此。

隨著CPU朝向SoC化，從圖形處理器(GPU)、影音處理器(Audio Video/DSP)、記憶體控制器等控制電路？單元都整合進來，每個處理單元都有不同工作頻率、工作電壓與節能需求。新一代高性能微處理器對電源的需求，電源控制IC也從傳統的單一類比控制方式，朝向多功能的整合型控制PWM IC發展。

當CPU邁向多核心發展下，像英特爾(Intel)、超微(AMD)紛紛發表像是Intel Turbo Boost、AMD Turbo Core等核心調校技術，依據不同線緒(Thread)的負載，去動態調整各核心的工作頻率？電壓，以4核心CPU執行到4線緒時，僅各個CPU核心能允許小幅度超頻；只用到雙核心時，可以針對這2個核心做較大幅度的超頻，另外2個核心則降頻甚至關閉，當執行像是單線緒遊戲類軟體時，可以集中在單一核心給予最大的超頻幅度，而同時維繫整體熱功率在一定水準內，可以在執行效能與總體功耗取得較完美的平衡。

而接下來超微(AMD)、英特爾(Intel)也都陸續在處理器晶圓內建熱敏電阻感測器，可以隨時動態偵測各工作單元？電路的實際運作溫度，在一定的總熱功率上限下，進一步的依工作負載去調整GPU或CPU的工作電壓？頻率。

以AMD R-464L APU為例，其CPU核心時脈為2,300MHz，GPU為496MHz，在一般x86與GPU負載均衡下各自時脈不變；當進入多線緒平行處理(Multi-Threaded)的狀態，x86時脈會視需要動態拉升到最高39%(3,200MHz)，而GPU時脈維持不變；當執行到偏3D圖形處理的程式時，x86時脈維持2,300MHz，但GPU時脈動態拉升到最高38%(685MHz)。

Haswell/Broadwell內建高效能變壓電路

過去處理器需借助主機板上的變壓電路模組(VRM)來供應電壓？電流。以22奈米Ivy Bridge平台來說，主機板仍需提供PLL VR 1.8V、Core VR 0~1.2V可變電壓、GPU 0~1.2V可變電壓、鎖相迴路(PLL) VR 1V、標準輸出入電壓(Input/Output) VR 1V、System Agent VR 1V，及DDR3記憶體模組驅動所需的DDR VR 1.2？1.35V，再經過CPU內部的分壓輸出，受限於電容、電感的延遲效應，而使得各單元的電壓調校無法做到極精細。

2013年英特爾技術論壇 (IDF 2013)中，首度揭露22奈米處理器(代號Haswell)，在處理器矽晶圓內建全整合式電壓調節器(Fully Integrated Voltage Regulator；FIVR)，多達20組的16相位電源細胞電路(Power Cell)，每個Power Cell工作頻率高達140MHz，供電上限25安培，可依據不同的CPU核心、GPU核心、PCI-E、週邊I/O等做精細且獨立的調整，光CPU本體就能應付到多達320相位，480安培(500A)的總電流量流入；主機板廠商僅需針對 480A 這個規格設計，Haswell/Haswell-E主機板被簡化到僅需2個供電迴路，一組Vccin對處理器供電，另一組Vddq對記憶體供電即可。

於2014年9月聖荷西舉辦的秋季IDF2014論壇中，英特爾正式發表採最先進14奈米(14nm)製程打造的行動型處理器Core M (原始代號Broadwell)，Core M行動處理器特別針對Detachable、Convertible 2in1變形平板、超極致筆電(Ultrabook)所打造。

Core M採2？4核心設計，內建第4代繪圖晶片核心，同時CPU矽晶圓與週邊南橋晶片(PCH)採MCP多重晶片構裝為一體的SoC設計，整個SoC晶片總設計功耗僅4.5W，可搭配一般散熱片或熱導管做散熱，設計出更纖薄、輕巧且安靜的無風扇行動裝置(Fanless)。

據傳(幾乎已獲得證實)Intel 將會在2015年14nm的Skylake處理器？主機板平台中，取消FIVR設計重回傳統外部分離供電的設計。主機板得重新負責VCCGT、VCCIO、VCCSA等電壓的調控，其思考策略為何則不得而知。

行動裝置處理器從多核心到異質性的節能設計

從CPU的演進中，單核CPU到了發展瓶頸，同質多核心(Homogenous system)CPU隨著核心數量增加到一定程度後，仍面臨到功耗、平行化軟體與效能無法持續延展的瓶頸。異質性多核心系統(Heterogeneous Systems)則由各種應付不同類型工作負載的異質性核心所組成，藉由顛覆傳統的程式碼撰寫機制，依不同核心特性做運算分派與效能最佳化，可以確保效能持續延展下去。

2012年6月，AMD聯合ARM、Imagination、聯發科、德儀、三星與高通，成立非營利性的異質系統架構協會(Heterogeneous System Architecture；HSA Foundation)，從矽智財(Silicon IP)到軟體開發商等產業鏈的建立，一同推動異質性系統架構的普及。

預計於2014下半年會出現的高階4核、8核智慧手機，其行動應用處理器人選，有高通(Qualcomm) Snapdragon系列808(6核)/810(8核) 64bit應用處理器，以及聯發科(Media)的MT6595(4核)？MT6795(8核)的64bit應用處理器。前者採用安謀(ARM)非對稱式(big.LITTLE)－4核Cortex A57加上2？4核Cortex A53設計，後者則直接使用8核心Cortex A53的設計。

過去應用處理器內建電源管理並採共用電壓來驅動，當跨入40、32甚至28奈米製程，因CMOS製程？線路微縮，無法以5V工作電壓直接驅動；而4核以上處理器，有需要針對每個核心做動態升降頻？降壓，因此AP業者嘗試改以外接的高效能電源管理晶片，提供6組或更多穩壓線路與動態電壓控制(DVC)功能，可跟處理器負載做適時調整(Adaptive Adjustment)，將所有處理工作的電源效率最佳化。

關鍵字

多核心

加入已選取到「關鍵字追蹤」什麼是「關鍵字追蹤」

議題精選－電源技術專輯