7家芯片供貨商近日宣布將聯(lián)手針對服務(wù)器加速器(server accelerators)聯(lián)手定義緩存一致性互連架構(gòu)(cache-coherent interconnect),在云端運算應(yīng)用領(lǐng)域提供英特爾(Intel)、Nvidia以外的替代方案。此舉是橫跨ARM、x86與Power架構(gòu)處理器的服務(wù)器硬件架構(gòu)合作。
上述7家芯片廠商包括AMD、ARM、華為(Huawei)、IBM、Mellanox、高通(Qualcomm)與賽靈思(Xilinx),將聯(lián)手為定義服務(wù)器加速器緩存一致性互連(Cache Coherent Interconnect for Accelerators,CCIX)規(guī)格;該聯(lián)盟預(yù)計在今年底公布規(guī)格草案,但到目前為止并未公布任何關(guān)于此合作案的技術(shù)或財務(wù)細節(jié)。
英特爾在去年以167億美元收購了可程序化邏輯組件供貨商Altera,有部分原因就是為了使用后者的FPGA做為Xeon服務(wù)器處理器的加速器;英特爾已經(jīng)開始推出在單一封裝中整合Altera之FPGA與其Xeon處理器的產(chǎn)品。至于其他處理器供貨商則是分別與賽靈思接洽,試圖為其芯片建立緩存一致性連結(jié);于是Xilinx提出了定義適用所有處理器之單一連結(jié)的想法。
從去年開始,以加速器芯片來提高處理器性能的需求如野火般延燒整個運算產(chǎn)業(yè),大部分來自于各家網(wǎng)絡(luò)巨擘開始在眾多新興應(yīng)用領(lǐng)域如語音識別、影像識別以及上下文搜尋等,采用新一代的機器學(xué)習(xí)算法。
Google在甫落幕的年度Google I/O大會上也宣布已經(jīng)自行開發(fā)加速器芯片,稱為張量處理單元(tensor processing unit,TPU);應(yīng)用于相對速度較低且非一致性快取的PCI Express總線。目前TPU已經(jīng)應(yīng)用于Google的數(shù)據(jù)中心處理各種任務(wù),被視為該公司云端服務(wù)的差異化特色之一。
微軟(Microsoft)與百度(Baidu)也已經(jīng)在數(shù)據(jù)中心使用FPGA,加速從搜索引擎到網(wǎng)絡(luò)安全性等不斷增加的任務(wù)處理速度;他們通常是在PCIe板卡上使用FPGA。而Nvidia今年稍早發(fā)表首款采用緩存一致性鏈接接口NVLink的繪圖處理器Pascal;該接口用以鏈接Nvidia的GPU以及采用IBM Power架構(gòu)的處理器。
今年稍早,F(xiàn)acebook發(fā)表了以GPU為基礎(chǔ)、應(yīng)用于人工智能任務(wù)的服務(wù)器設(shè)計;而Google的一位頂尖工程師則于不久前透露,該公司在數(shù)據(jù)中心采用越來越多數(shù)量的GPU。
除了機器學(xué)習(xí),上述的CCIX組織成員表示,將開發(fā)的接口會有助于加速器進駐包括大數(shù)據(jù)分析、網(wǎng)絡(luò)處理等應(yīng)用;特定功能加速器在協(xié)助通用處理器方面所扮演的角色重要性越來越顯著,因為后者若要趕上摩爾定律的步伐(Moore’s law),成本變得越來越高昂。CCIX標(biāo)準(zhǔn)可望應(yīng)用于廣泛的加速器與服務(wù)器處理器,但合作成員都尚未透露具體計劃。
賽靈思表示該規(guī)格將應(yīng)用于16納米制程FPGA,但未提及產(chǎn)品何時上市;Mellanox則可能會在高端網(wǎng)絡(luò)控制器以及收購自EZChip的網(wǎng)絡(luò)處理器都采用該規(guī)格。而IBM在今年稍早展示的、預(yù)計2017年問世之Power 9處理器電路圖,其中的緩存一致性接口應(yīng)該就是CCIX。
高通與華為可能會在開發(fā)中的ARM架構(gòu)服務(wù)器單芯片采用新接口;AMD則應(yīng)該會在未來的ARM架構(gòu)與x86架構(gòu)服務(wù)器處理器、還有Radeon繪圖處理器都采用CCIX,不過到目前為止AMD并未像是競爭對手Nvidia那樣著重GPU加速器的市場。
CCIX會是開放性FPGA應(yīng)用程序編程接口的補充
CCIX組織尚未決定其接口規(guī)格將會采用免費授權(quán)模式,或是將之交由經(jīng)認(rèn)證的標(biāo)準(zhǔn)機構(gòu)來經(jīng)營;此外該組織也尚未透露任何關(guān)于接口帶寬、數(shù)據(jù)傳輸速率或延遲等方面的技術(shù)目標(biāo),僅表示相關(guān)參數(shù)至少都能與目前的其他替代方案媲美。
“我們將能與所有現(xiàn)存替代技術(shù)競爭,在某些應(yīng)用案例中甚至表現(xiàn)可以更好;”賽靈思架構(gòu)副總裁Gaurav Singh表示:“我們將有單一個跨越x86、Power與ARM架構(gòu)的一致性協(xié)議──這是以往從未有過的。”
網(wǎng)絡(luò)巨擘如Google正準(zhǔn)備探詢由英特爾x86架構(gòu)轉(zhuǎn)移至例如ARM或是Power架構(gòu)的可能性;今年稍早,一位微軟工程師表示,數(shù)據(jù)中心日益龐大的工作負載將迫使運算架構(gòu)重新設(shè)計,而有一部分焦點將集中在新種類的加速器。
最近開放源碼軟件開發(fā)商Red Hat正在主導(dǎo)重整針對包括FPGA在內(nèi)之服務(wù)器加速器軟件編程接口的支持,對此Singh表示:“CCIX將與其行動互補;”他進一步指出:“CCIX 不會定義應(yīng)用程序編程接口(API),那個部分將會由軟件業(yè)者來主導(dǎo)。CCIX會需要一些平臺軟件方面的改變來支持,但我們不預(yù)期會動到操作系統(tǒng)。”
“我們將因為擁有選擇性而獲益,有像是CCIX這樣的替代方案對產(chǎn)業(yè)界是好事;”Red Hat負責(zé)上述針對加速器之開放性編程接口的Jon Masters表示,CCIX提供了產(chǎn)業(yè)界需要的一些功能;是在英特爾的QPI以及IBM的CAPI (Coherent Accelerator Processor Interface)以外,另一個很不錯的替代技術(shù)。他指出在軟件部分,目標(biāo)是定義使用加速器的開放性軟件接口,因此無論底層互連技術(shù)是QPI、PCI Express、CAPI或CCIX等等,都有免驅(qū)動程序的編程環(huán)境。
CCIX成員有大量現(xiàn)有技術(shù)可利用,例如ARM有一套 一致性SoC互連,AMD主導(dǎo)的異質(zhì)系統(tǒng)架構(gòu)基金會(Heterogeneous Systems Architecture Foundation)為手機處理器的CPU、GPU開發(fā)了緩存一致性連結(jié);此外IBM已經(jīng)在Power架構(gòu)芯片中使用一致性加速器處理器接口(即 CAPI)。
市場研究機構(gòu)Moor Insights and Strategy的資深分析師Karl Freund認(rèn)為,如果CCIX能順利推廣,潛在好處將會非常龐大;不過他預(yù)期最終成果可能要到2019年甚至2020年才會看到,因為該鏈接接口得等到IBM的Power 9、AMD的Zen以及ARM的新一代處理器核心問世之后才會現(xiàn)身。
而Freund也表示,推動CCIX的七家大廠還少了一家──Nvidia的缺席會在它們進入運算加速以及圍繞其軟件建立了有價值的生態(tài)系統(tǒng)時成為問題。