針對伺服器功率報告的熱插拔IC解決方案技術比較 智慧應用 影音
西門子軟體
Event

針對伺服器功率報告的熱插拔IC解決方案技術比較

  • 陳毅斌

圖2,所有3種方法比較的簡化原理圖就如圖1所示。
圖2,所有3種方法比較的簡化原理圖就如圖1所示。

一直以來,高性能伺服器都在使用以類比電流感應、濾波以及校正電路為基礎的功率測量方法,為底板管理控制器(BMC)中的ADC提供訊號。雖然校正回路內並沒有包括分流電阻本身,但是這種系統通常使用校正電路來提供最高的準確度。這種電路的元件數量和電路板面積需求很高。

對於今天的數據中心來說,功率密度並不是唯一的問題;隨著過去幾年伺服器數量的增長,運算成本已成為另一個熱門話題。用電控制(power capping)等許多技術的引入提高了數據中心的能源效率,但是準確測量功率水平的能力仍然是決定性因素。本文比較了用於伺服器保護和功率測量的整合解決方案與分離方案在面積、成本、節能及獲得的其他優勢。

圖1,所有3種方法的簡化原理圖比較。請注意,電路板面積不包括所有這3種方法共用的分流電阻和MOSFET元件。

圖1,所有3種方法的簡化原理圖比較。請注意,電路板面積不包括所有這3種方法共用的分流電阻和MOSFET元件。

圖3。

圖3。

圖4。

圖4。

圖5,用於功率監控的伺服器工具有高準確度要求,如圖所示。要實現3%的總功率測量,每個功率和電壓測量通道將需要高於1%的準確度。

圖5,用於功率監控的伺服器工具有高準確度要求,如圖所示。要實現3%的總功率測量,每個功率和電壓測量通道將需要高於1%的準確度。

圖6,伺服器工具的設計採用德州儀器公司的LM25066整合解決方案進行了簡化。該器件可提供精密遙測所需的所有功能,並結合了限制MOSFET功耗的先進熱插拔功能。

圖6,伺服器工具的設計採用德州儀器公司的LM25066整合解決方案進行了簡化。該器件可提供精密遙測所需的所有功能,並結合了限制MOSFET功耗的先進熱插拔功能。

圖7,伺服器工具使用了一個ADC取樣系統。這種最簡單的形式不會完全在同一時間點進行電壓和電流的取樣。增加的取樣和保持功能可以實現僅用一個ADC的同步取樣。

圖7,伺服器工具使用了一個ADC取樣系統。這種最簡單的形式不會完全在同一時間點進行電壓和電流的取樣。增加的取樣和保持功能可以實現僅用一個ADC的同步取樣。

圖8,需要注意的是,處在不同點的取樣電流和電壓的系統可能會錯過一個或其他參數的變化,不同的線分別表示電壓和電流取樣。另一方面,同步取樣將捕捉到這一轉化為更準確功率測量的過程。

圖8,需要注意的是,處在不同點的取樣電流和電壓的系統可能會錯過一個或其他參數的變化,不同的線分別表示電壓和電流取樣。另一方面,同步取樣將捕捉到這一轉化為更準確功率測量的過程。

圖9。

圖9。

圖10。

圖10。

圖11,LM25066框圖顯示了LM25066的主要屬性和功能。

圖11,LM25066框圖顯示了LM25066的主要屬性和功能。

伺服器中功率測量誤差的重要性眾所周知。最近發表的研究報告估計了一個連帶效應,即如果在伺服器元件級每節省1瓦,則設施能源消費可以節省2.84瓦(1)。例如,1個600瓦的伺服器,其5%誤差為30瓦。這代表設施的能源消費量浪費了85.2瓦。在一個有1,000台伺服器的典型數據中心中(2),這就增加了85.2kW的能源浪費。通過把功率準確度誤差降低到2%,能源浪費可下降到34 kW─減少了60%。隨著數據中心伺服器數量的增加,誤差對財務影響可能迅速將額外的電費帳單增加到數百萬美金。據估計,美國正在運行的數據中心每年的費用已高達33億美元(3)

在功率管理誤差方面有一些需要考量的問題,主要是用電控制級別的誤差,這可能妨礙了最終用戶準確計算功率水平。其他必要的考量因素是系統功率和散熱空間。

伺服器的功率和能力正在不斷增加,而且由於伺服器的核心功能佔用了更多的電路板面積,從而減少了必要的支持電路空間,包括功率管理和監測。監測的必要性是毫無疑問的。除了上面已經討論過的經濟利益,簡單的事實是,最終用戶還需要功耗信息。有必要在沒有任何性能損失的前提下,讓這些功率監控系統在佔用更少伺服器空間的條件下發揮作用。

考量到這些因素,下面概括了與分離方案相比整合解決方案的主要優點:
1. 電路板面積和成本
2. 功率計算和準確度
3. 系統架構影響
4. 先進保護/可靠性功能

應該指出,BOM成本只包括了材料。勞動力、元件取放(pick and place),以及相關的組裝成本沒有包括在內。所有方法使用的相同元件沒有包括在內,例如所有方法需要的、佔用相同的電路板面積和成本的分流電阻。

1.PCB面積和成本的比較,見圖1和圖2

2. 功率準確度和計算比較:

雖然傳統系統可以用一個命令捕獲電壓和電流,但仍然需要提供功率計算、平均、調整點動作(setpoint action)等處理。即使這樣,平均數的品質仍直接關係到怎樣得到持續和頻繁的數據讀數。

通過提供板上功率計算和平均,LM25066能夠在沒有計算開銷的前提下,“在系統空閒”時讀取數據。LM25066還提供了功耗看門狗設定值,可用來觸發用電控制功能。所有這些功能都與現有系統提供的準確度級別相同。

電流測量

收集測量伺服器功率數據的基本要素是測量進入伺服器的電流。電流測量不是一個簡單的測量工作,因為這必須通過高端分流感應來完成。這些大電流系統的低端分流路徑上不能有接地干擾。考量各種可用的磁性感應方法很有意思,但包括分流的整個測量系統的最高準確度要求現在已超過了3%,動態範圍要求超過了5比1(這意味著在20%輸入功率條件下,較高的準確度必須下降到一個點)。

要實現3%的總體功率測量意味著每個通道(電壓測量和電流測量通道)的誤差必須小於1%。剩下的1%將來自用於電流感應的常用1%誤差的分流電阻器。這樣準確度的高端感應要求電流感應具有非常高的通用模式抑制能力。

計算總誤差時需要考量以下問題:

1. 計算總誤差的方法。在不相關誤差條件下,習慣上使用和的平方根(root-sum-square)方法。一些人偏好直和(straight sum)方法,這肯定是在苛刻的最壞情況下。在任何不相關誤差條件下本文都將使用和的平方根。

2. 電壓通道和電流通道的誤差相乘可以確定功率誤差。在一般小於總值3%的小誤差值時,相乘值會接近誤差的簡單相加(simple summation)。
要計算總誤差,首先要計算有分流誤差以及工具誤差的電流通道總誤差,如圖3:

式中:

RSERR =分流電阻誤差
IIERR =電流通道工具誤差

例如,使用1%分流以及規定為1%工具系統誤差的系統,其電流測量通道將總共有1.4%的誤差。
功率測量的總誤差如圖4所示:

式中:

VERR =電壓通道工具誤差
PERR =功率測量總誤差

電流通道1.4%誤差,以及電壓通道1%誤差的系統的功率測量總誤差將是2.4%,非常接近兩個通道總誤差之和。

如上所述,要提供可接受水平的總準確度,工具的電壓和電流通道至少需要1%的準確度,以產生這一3%的總準確度或更高的功率準確度。

具體電流感應注意事項

根據高端要求考量針對這些電流的磁性電流感應方法往往很有用。不過,目前最先進的磁性感應方法只能達到5%的電流測量準確度。使用分流電阻的電流感應仍可實現最高1%的電流準確度測量,見圖5。雖然較低的分流壓降(shunt drop)可減少損耗,產生更少的熱量,有助於減小分流電阻並佔用更小的面積,但還可以用較大的分流壓降來提高電流感應準確度。訣竅是針對高準確度的必要性來優化折衷分流損耗。

電壓測量
電壓感應很簡單,就像用分壓器進入類比?數位轉換器(A/D)那麼簡單。不過,分壓器包括兩個電阻,會對準確度產生影響,像這樣的細節已經由整合解決方案實現。由於電壓變化的緣故,電壓通道必須準確。有趣的是,假設伺服器的電壓比較恒定,即使認為只有120mV的變化,也相當於1%。

一旦實現了滿意的電流感應和分壓器解決方案,還有類比?數位轉換器(ADC)的問題。對ADC來說很多選擇都很有用,其中許多選擇都整合在BMC的處理器當中。然而,這些ADC的性能(如偏移、增益誤差,以及線性度)都不好。這些參數,或至少是增益參數,會直接影響ADC基準。內置處理器的基準總是會降低性能基準,除非使用校正,即使在有限的溫度範圍內也無法提供所需的準確度。與在功率測量器件(如LM25066)中整合了熱插拔的ADC不同,必須考量額外的ADC誤差。

整合的熱插拔和功率測量解決方案

圖6顯示了採用整合方式獲得的優勢組合:

1. 具有電流和功率限制功能的先進熱插拔電路,可限制MOSFET的功耗,同時為下游元件提供強大的尖峰電壓和瞬衝電流保護

2. 25mV的滿度1%準確度高端電流感應可降低板級功耗和系統級浪費的線路傳輸功耗

3. 1%準確度內置分壓和感應可實現電壓和電流的內部計算,為數據中心利用率提供電源遙測和平均,以及有價值的參數

4. 具備取樣和保持方法的內部ADC可以實現電壓和電流的同步取樣,以提供最終的功率測量準確度

取樣注意事項
提出取樣的主題對電壓變化的討論是一個很好的想法。由於用類比?數位轉換器(ADC)來執行這一測量,人們注意到它將是一個取樣系統。這將導致取樣定時的問題,因為被測量的功率是特定時間內電壓和電流的乘積。

由於成本的因素,最好使用一個ADC並複用這些訊號。但如圖7所示的傳統系統無法在完全相同的點進行這些取樣,圖7還以虛線描述了一個同步取樣系統。為了進行取樣,S1和S2都封閉在即時存儲其值的同一個取樣?保持電容器上。然後,ADC可以順序轉換每個通道。

圖8說明了取樣定時的重要性。系統一次只可能一個參數進行取樣,當對電流取樣時,會出現不匹配電壓的取樣電壓。這可能會導致功率測量誤差,即120mV的電壓變化可產生1%的誤差,這種變化經常發生。

功率計算
許多最終用戶希望有現成的功率數據來減輕他們的計算負擔。這意味著工具IC必須乘以電壓和電流以提供功率計算。(其中一個考量是即將報告功率的單位,而最方便的解決方案是相對功率計算)。如果電流值(實際上大多數IC是以分流電壓值表示)是在滿度,而電壓也在滿度,這兩個值相乘得出一個滿度功率暫存器(power register)。然後由用戶分配合適的LSB值,這當然就是所使用的分流電阻準確值的一個因數。

這種類型的報告很容易適應直接報告格式的PMBus,允許係數將IC數據轉換成“現實世界”的數字。某些係數將由製造商來確定,如由固定的內部分壓器提供的電壓測量縮放(measurement scaling)。最終用戶將必須計算電流係數,因為這些都與所使用的分流電阻的準確值成正比。

平均和功率計算
電流測量經常帶有雜訊,而數位系統中的平均很容易平滑雜訊的讀數。不過,平均的方法正好有助於功率測量的準確度。在功率測量中,它似乎有兩種方法去平均測量值。

平均的第一個例子可能是平均若干電流讀數,再平均若干電壓讀數,然後這些值相乘得出平均功率,如圖9:

在變化值緩慢的系統中,這種做法可能是準確的。但是在現實中,伺服器系統的電流和電壓可能高速度改變。非常有用的是要記住,如果超過了1%的變化,就會出現相應的誤差。這是可以避免的,只要將電壓和電流的瞬時取樣相乘,就可以實現最大準確度,那麼功率即可平均為,如圖10:

請注意,在任何情況下,如果平均是在器件之外完成的,平均都可以有效增加取樣時間和微控制器?處理負擔,從而延長了新的有效數據變為可用所花的時間。

數據存儲和警報
用電控制是可以發揮伺服器工具警報作用優勢的功能之一。此外,由於功率控制功能(如熱插拔)與遙測相結合可以設置限制,這樣通知系統就可以利用即將發生的故障條件。峰值還有發生故障時間的值都可以進行存儲。這提供了一種“黑匣子”功能,可以在故障瞬間產生系統條件數據。

介面
在數據中心、伺服器和通信基礎設施中SMBus無處不在,它是系統內的通信手段。SMBus的構建一般與I2C介面相容。最新的發展是採用SMBus物理層的PMBus介面,同時定義了與功率管理系統和整合電路通信的協定。PMBus非常適合作為與伺服器遙測工具進行通信的一種手段。

PMBus帶來的最重要的改進可能是分組誤差檢查和誤差檢查方法。I2C和SMBus的許多用戶都感到遺憾的是,他們沒有辦法知道已經在進行的寫入和讀取,或已經獲得了正確的數據。其他好處是讀取許多警報和數據點的具體命令;而且,隨著時間的推移,這將成為更明確定義的伺服器工具。

3. 系統架構的影響:

如圖11,LM25066的軔體架構類似於採用I2C以及SMBus設計的解決方案,從而可最大限度地減少對客戶系統架構的影響。所有硬體和介面協定均與SMBus相同。PMBus增加了特定命令指針位置(pointer location),以實現不同製造商命令的標準化,從而保持對未來平臺的靈活性。

由於BMC不再有計算平均功率的負擔,BMC要求放寬了。又由於用LM25066進行功率計算和平均,BMC可以在空閒時讀取LM25066;也消除了偶爾運行校正程序的負擔。

4. 先進保護/可靠性功能

LM25066整合了熱插拔與功率監控系統,這一合理的整合減小了電路板面積。LM25066具備幾個作為熱插拔功能一部分的MOSFET保護功能,如:

• MOSFET功耗限制
• MOSFET熱保護
• MOSFET故障感應

溫度報告是伺服器工具另一個有用的功能,LM25066利用遠程結點(一個晶體管)作為溫度傳感器。其使用方法之一是將它安裝在靠近MOSFET的位置,為MOSFET提供熱限制。另外,它還可用來報告針對幾乎任何用途的幾乎任何位置的溫度。

LM25066結合了MOSFET功耗限制功能,其實際上可測量MOSFET兩端的電壓降、MOSFET中的電流,並使用類比乘法器來計算MOSFET的功耗。沒有更好的保護方法可以提供這種最適合MOSFET的安全工作區。這種保護可以使用較小的MOSFET來實現。

結論

不斷增加的數據中心容量,同時還要減少其能源消耗的難度給許多伺服器製造商帶來了挑戰。在相同數量的機架空間中增加處理能力對板級功率密度提出了挑戰。同時,已引入的用電控制等技術可以提高數據中心的能源效率,但準確測量功率水平的能力仍是關鍵因素。

與分離方案相比,德州儀器的LM25066可節省大量的電路板空間和成本,同時提供了功率監控準確度和能力,可以減輕板上處理引擎的負擔。LM25066用採用行業標準命令集的PMBus介面提供了這一功能,可在不嚴重影響系統架構的前提下,實現將來的相容性。強大的MOSFET保護和監測功能可進一步確保提供最經濟而又可靠的功率控制解決方案。

參考文獻:
(1)、(2)、(3)能源邏輯:通過建立節約的跨系統級聯減少數據中心的能源消耗。艾默生網絡能源。2009年。
(本圖文由TI德州儀器公司所提供,作者: Joy Taylor , Technical Marketing Engineer和 Jerry Steele , Strategic Applications Engineer ,陳毅斌整理)