亚洲美女在线国产_日韩欧美国产激情视频_在线高清不卡成人免费视频_亚洲第一无码资源网_被别人巨茎征服的娇妻3d动漫_九九国产一级毛片_麻豆映画传媒新剧免费观看_内射大B美女毛片_亚洲AV无码专区在线黑人_清纯校花学校被破雏在线观看

現(xiàn)在的高性能RISC-V處理器和Arm比起來如何?

作者:貝特萊科技    2023-07-27

采用RISC-V架構(gòu)的處理器不經(jīng)意出現(xiàn)在日常電子產(chǎn)品中,似乎已經(jīng)變得越來越稀松平常了:不僅是一些典型的MCU廠商開始擁抱RISC-V。

而且還體現(xiàn)在一些業(yè)已成熟的產(chǎn)品中,如今年的中國IC領(lǐng)袖峰會上,我們與硅谷數(shù)模對話,了解到如今十分成熟的TCON芯片內(nèi)部竟也不顯山、不露水地加入了RISC-V小核心;還有像是前些年英偉達就開始在其GPU產(chǎn)品中選擇RISC-V作為控制器;西數(shù)也在整個產(chǎn)品線上開始選擇RISC-V核。


這讓我們對于RISC-V指令集的處理器微架構(gòu)也愈發(fā)感興趣:去年10月,SiFive發(fā)布了首款RISC-V亂序CPU核心,U8系列處理器IP。SiFive在宣傳中提到,U8系列是目前最高性能的RISC-V指令集核心IP(似乎晚于玄鐵910),“基于超標(biāo)量亂序管線,以及可配置的管線深度和發(fā)射序列寬度”。

SiFive在RISC-V的微架構(gòu)IP授權(quán)中還是相當(dāng)活躍的一家企業(yè),其7系與8系IP核,作為RISC-V世界的高性能核心,是我們觀察RISC-V當(dāng)前發(fā)展情況的一個重要窗口,雖然微架構(gòu)剖析大約并不能特別好地呈現(xiàn)指令集本身的特性,但通過它們與Arm的對比,也是了解RISC-V生態(tài)的機會。

最高性能的RISC-V核心,比起Arm如何?

我們首先有必要搞清楚,SiFive內(nèi)部針對不同系列的產(chǎn)品的定位。在今年4月SiFive舉行的一場名為"Embedding Intelligence Everywhere with SiFive 7 Series Core IP"的在線會議上,SiFive曾經(jīng)對自家產(chǎn)品線進行過總結(jié)。SiFive的E系列核心,著眼在32bit嵌入式使用場景;64bit的S核心則偏向算力需求更大的場景;而U系列核心是性能最強的定位,面向高端計算。

若以數(shù)字為切分維度,SiFive的2系列是RISC-V處理器IP中效率最高,同時也最小型的處理器IP;3系列、5系列則在部署上更為廣泛,用在一些多核配置和對實時處理能力要求較高的場景;7系列和8系列如上所述都著力于高性能。數(shù)字與字母組合,就構(gòu)成了不同的產(chǎn)品,比如說E3面向中端定位的嵌入式應(yīng)用提供32bit性能;S7顯然是專注在性能方面的產(chǎn)品;U8則實現(xiàn)了可規(guī)?;渲玫母咝阅芎诵?,達成最高的每瓦性能。

在U8發(fā)布之前,SiFive的高算力產(chǎn)品主要就是U5、U7——這兩者仍是順序架構(gòu),對標(biāo)的是Arm的低端及微控制器核心,在面對更為復(fù)雜的負載、要求算力的場景下還是有欠缺的。U8系列是彌補這個短板的產(chǎn)品。SiFive當(dāng)時宣稱,U8將極大擴展SiFive與RISC-V在終端產(chǎn)品中的生態(tài)系統(tǒng)生存能力。

在SiFive U8系列產(chǎn)品下,目前主要包括U84、U87兩個核心IP。SiFive自己給的數(shù)據(jù)是,U84核心的性能是U74的3.1倍,IPC提升2.3倍(在最高頻率提升1.4倍的情況下)。上面這張圖對比中,在相同工藝的前提下,U84性能是U54的5.3倍;如果加上工藝造成的差別,則7nm的U84核心,性能達到了28nm的U54核心的7.2倍。這個數(shù)據(jù)其實一方面表明,RISC-V的性能潛力這些年還在挖掘過程中,所以相比更低端的產(chǎn)品能有如此巨量的性能與效率差距。

這是RISC-V自己內(nèi)部在FPGA平臺下跑U84 IP的成績,比較的是SPECint2006成績。

SiFive此前在新聞稿中給U8樹立的直接競爭對手是Arm Cortex-A72,其中提及相比Arm Cortex-A72核心,SiFive U84提供可媲美的性能。不過在面積效益和每瓦性能方面,U84還是有優(yōu)勢,當(dāng)然我們知道A72已經(jīng)是Arm前兩年的架構(gòu)了。

同是7nm工藝的前提下,U84的每個核心占地面積在0.28mm2,四個核心加上2MB L2 cache構(gòu)成一個簇,面積為2.63mm2。此前華為Krin 980的Cortex-A55小核心,每個核心配上各自128KB的L2 cache,面積為0.36mm2——要知道A72的性能是A55的兩倍還多,顯然在PPA方面,SiFive U84表現(xiàn)不錯。

需要強調(diào)的是,U8系列作為IP在面向具體的芯片產(chǎn)品時還是有很大的可配置和擴展性的,U84是作為一個標(biāo)準(zhǔn)IP存在的,所以這里的探討僅基于SiFive的標(biāo)準(zhǔn)IP,具體到實際產(chǎn)品仍然會有差別。

7系列與8系列微架構(gòu)

或許很多人并不會將RISC-V這樣一個指令集,在高性能領(lǐng)域去與Arm一決高下,畢竟RISC-V當(dāng)前的主場也不在此——IoT產(chǎn)品對碎片化問題更不敏感,也不像手機那樣對處理器性能有那么高的要求,RISC-V在很多情況下也偏向以微控制器的姿態(tài)存在。不過在我們看來,這依然是表現(xiàn)RISC-V陣營技術(shù)能力的重要組成部分。

RISC-V可查閱的資料當(dāng)然還遠沒有Arm世界那么多,已經(jīng)商用的RISC-V處理器——無論是MCU中的處理器,還是某些硬件中的控制器,公開的技術(shù)細節(jié)也并不多,詳實程度自然不及遍地開花的Arm。我們從有限的資料中去了解SiFive的7系列與8系列處理器微架構(gòu),對于理解RISC-V生態(tài)還是有價值的。

如前文所述,U8系列是SiFive的首款亂序核心,U84流水線深度12級,后端3個執(zhí)行單元——還是相當(dāng)傳統(tǒng)的亂序執(zhí)行設(shè)計。這里的寄存器組(RegFile)設(shè)計還是頗為與眾不同。

從前端來看,核心的取指單元(Fetch Queue)能夠每周期以16字節(jié)從L1l獲取指令,將其放到取指隊列中。RISC-V ISA為可變指令編碼長度,假定平均是32bit,則對應(yīng)每周期4個指令。所以U8的解碼器(decoder)也是4-wide設(shè)計,并將其傳遞到指令隊列(Instruction Queue)中。

再往后,指令隊列能夠一次發(fā)射3個指令到重命名階段(rename),這個寬度就比前面收窄了。外媒AnandTech此前也在針對這部分的評價中提到,取指階段的寬度大于發(fā)射這種設(shè)計,旨在發(fā)生分支預(yù)測錯誤時,讓前端能夠跟上后端;但解碼比發(fā)射更寬的這種設(shè)計,以前還從未見過。猜測這可能是微架構(gòu)的某種平衡之策,也可能是為將來更寬發(fā)射的U8系列IP設(shè)計做準(zhǔn)備的。從SiFive的官方介紹來看,發(fā)射隊列數(shù)應(yīng)該是可以由芯片設(shè)計商來配置擴展的。

重命名階段的設(shè)計比較常規(guī),包含一個重排序buffer,和三個分發(fā)引擎。然后就進入到執(zhí)行后端了。

后端部分,SiFive只給了整數(shù)執(zhí)行單元的情況,整體包含3條執(zhí)行管線。每一條都有其各自的發(fā)射隊列,填充進3條ALU管線。其中一條管線是常規(guī)的ALU,有一條則與分支單元共享了端口,還有一條更為復(fù)雜,可以執(zhí)行整數(shù)乘法和除法操作。

U84這樣的核心本身還沒有SIMD、矢量指令支持,似乎是因為擴展指令還未完全就緒。SiFive解釋說,今年年底這部分會就緒;可能U87就會具備這部分能力——目前我們從SiFive官網(wǎng)還未看到這方面的更新。

可擴展性

從構(gòu)成SoC/MCU的更高層級來說,SiFive采用一種名為"Mix+Match"的大小核異構(gòu)設(shè)計,共享一個L2可以配置至多9個核心。核心的搭配方式,可以是U8、U7、S2這些不同的核心搭配組合。


 

參考早前的7系列,采用的是8+1設(shè)計,看起來和這次的設(shè)計比較相似,但搭配方式上可能會有些差別。WikiChip所做的這張圖更清晰地表達了這種結(jié)構(gòu)——包括核心、cache等,整體構(gòu)成一個簇(Cluster)。其上還有自定義指令支持(Custom Instruction Extensions),每個核心都能實現(xiàn)特定指令的支持,實現(xiàn)某些特定工作負載的加速——這也是現(xiàn)在很多基于RISC-V指令微架構(gòu)的能力。

7系列的介紹中曾提到,通過TileLink,可以將64個這樣的簇放在一顆單芯片上。U8系列核心IP介紹中則只提到了使用TileLink,來連接第三方加速器IP實現(xiàn)core-to-core通信,或者ChipLink實現(xiàn)chip-to-chip通信。存儲子系統(tǒng)部分詳情不多,SiFive提到提供高帶寬存儲接口IP,對于HBM2E+這類需求有幫助,不過這部分工作似乎還在持續(xù)。

7系列的核心有可選配一種FIO端口(Fast I/O),直連到核心,作為核心以及大容量SRAM或第三方加速器之間的低延遲接口——這種FIO端口還與main core complex bus總線相連,其他核心也能看到SRAM或者第三方加速器。不知道這種FIO端口,與SiFive的TileLink技術(shù)是什么樣的關(guān)系。

在可擴展性的問題上,U8系列還有一些特性:(1)對不同工藝節(jié)點的支持;(2)亂序設(shè)計可做配置,前文提到U84這種標(biāo)準(zhǔn)核心是12級流水線、3發(fā)射,實際上流水線深度、發(fā)射隊列數(shù)等都是可以針對不同應(yīng)用做具體調(diào)整的;(3)整數(shù)單元到浮點單元的跨發(fā)射(cross-issue)能力;(4)“可組合cache”達成實時操作支持。

如前文所述,SiFive的7系列與8系列在當(dāng)今RISC-V生態(tài)中可能沒有充足的代表性,不過如SiFive所言,這些高性能核心IP對于擴展RISC-V生態(tài)邊界還是有相當(dāng)價值的。即便就現(xiàn)在看來,Arm生態(tài)在中高端市場仍然占據(jù)著性能和技術(shù)上相當(dāng)?shù)膬?yōu)勢。


投遞簡歷