技術(shù)
導(dǎo)讀:過(guò)去多年里,邏輯和內(nèi)存分別獨(dú)立的馮·諾依曼 (JOHN VON NEUMANN) 的原始計(jì)算機(jī)架構(gòu)運(yùn)行良好。但一些公司認(rèn)為現(xiàn)在是改變的時(shí)候了。
過(guò)去多年里,邏輯和內(nèi)存分別獨(dú)立的馮·諾依曼 (JOHN VON NEUMANN) 的原始計(jì)算機(jī)架構(gòu)運(yùn)行良好。但一些公司認(rèn)為現(xiàn)在是改變的時(shí)候了。
近年來(lái),向更多并行處理的轉(zhuǎn)變以及神經(jīng)網(wǎng)絡(luò)規(guī)模的大幅增加意味著處理器需要更快地從內(nèi)存中訪問(wèn)更多數(shù)據(jù)。然而,“DRAM 和處理器之間的性能差距比以往任何時(shí)候都大,”韓國(guó)先進(jìn)科學(xué)技術(shù)研究所 3D 存儲(chǔ)芯片專(zhuān)家、IEEE Fellow Joungho Kim說(shuō)。馮諾依曼架構(gòu)成為馮諾依曼瓶頸。
相反,如果至少有一些處理發(fā)生在內(nèi)存中呢?則意味著需要在芯片之間移動(dòng)的數(shù)據(jù)更少,而且您也可以節(jié)省能源。這不是一個(gè)新想法。但它的時(shí)刻可能終于到來(lái)了。
去年,全球最大的動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器 (DRAM) 制造商三星開(kāi)始推出內(nèi)存處理 (PIM) 技術(shù)。其首個(gè) PIM 產(chǎn)品于 2021 年 2 月推出,在其Aquabolt-XL高帶寬內(nèi)存中集成了專(zhuān)注于 AI 的計(jì)算內(nèi)核。HBM 是一種圍繞一些頂級(jí) AI 加速器芯片的專(zhuān)用 DRAM。時(shí)任三星內(nèi)存業(yè)務(wù)部高級(jí)副總裁的 IEEE 院士Nam Sung Kim表示,新內(nèi)存旨在作為普通 HBM 芯片的“直接替代品”。
去年 8 月,三星公布了在合作伙伴系統(tǒng)中的測(cè)試結(jié)果。當(dāng)與 Xilinx Virtex Ultrascale + (Alveo) AI 加速器一起使用時(shí),PIM 技術(shù)為語(yǔ)音識(shí)別神經(jīng)網(wǎng)絡(luò)提供了近 2.5 倍的性能提升和 62% 的能耗降低。三星一直在提供集成到當(dāng)前一代高帶寬 DRAM HBM2 中的技術(shù)樣本。它還為下一代 HBM3 和移動(dòng)設(shè)備中使用的低功耗 DRAM 開(kāi)發(fā) PIM。它預(yù)計(jì)將在 2022 年上半年與JEDEC一起完成后者的標(biāo)準(zhǔn)。
有很多方法可以將計(jì)算智能添加到存儲(chǔ)芯片中。三星選擇了一種快速而簡(jiǎn)單的設(shè)計(jì)。HBM 由一堆 DRAM 芯片組成,這些芯片通過(guò)稱(chēng)為硅通孔 (TSV) 的互連垂直連接。存儲(chǔ)器芯片堆棧位于作為處理器接口的邏輯芯片之上。
一些內(nèi)存中處理項(xiàng)目
美光科技
這家第三大 DRAM 制造商表示,它沒(méi)有內(nèi)存處理產(chǎn)品。然而,在2019 年,它收購(gòu)了人工智能技術(shù)初創(chuàng)公司 Fwdnxt,目標(biāo)是開(kāi)發(fā)“讓內(nèi)存和計(jì)算更緊密結(jié)合的創(chuàng)新”。
NeuroBlade
這家以色列初創(chuàng)公司開(kāi)發(fā)了具有集成處理核心的內(nèi)存,旨在加速數(shù)據(jù)分析中的查詢(xún)。
Rambus
DRAM 接口技術(shù)公司的工程師對(duì)內(nèi)存處理 DRAM 進(jìn)行了探索性設(shè)計(jì),重點(diǎn)是降低高帶寬內(nèi)存 (HBM) 的功耗。
三星
全球最大的 DRAM 制造商正在提供具有集成 AI 計(jì)算核心的 Aquabolt-XL。它還開(kāi)發(fā)了用于內(nèi)存模塊的 AI 加速器,并致力于標(biāo)準(zhǔn)化 AI 加速的 DRAM。
SK海力士
第二大 DRAM 制造商和普渡大學(xué)的工程師在2020 年公布了 Newton(一種AI 加速 HBM DRAM)的結(jié)果,但該公司決定不將其商業(yè)化,而是為標(biāo)準(zhǔn) DRAM 尋求 PIM。
堆棧中最高的數(shù)據(jù)帶寬位于每個(gè)芯片內(nèi),其次是 TSV,最后是與處理器的連接。因此三星選擇將處理放在 DRAM 芯片上,以利用那里的高帶寬。計(jì)算單元旨在執(zhí)行最常見(jiàn)的神經(jīng)網(wǎng)絡(luò)計(jì)算,稱(chēng)為乘法和累加,除此之外別無(wú)他物。其他設(shè)計(jì)已將 AI 邏輯放在接口芯片上或使用更復(fù)雜的處理核心。
三星最大的兩個(gè)競(jìng)爭(zhēng)對(duì)手, SK海力士與美光科技,還沒(méi)有準(zhǔn)備好要為HBM上PIM,雖然他們已經(jīng)實(shí)現(xiàn)每對(duì)其他類(lèi)型的存內(nèi)處理。
位于韓國(guó)利川的第二大 DRAM 供應(yīng)商 SK 海力士正在從多個(gè)角度探索 PIM ,該公司副總裁兼內(nèi)存解決方案產(chǎn)品開(kāi)發(fā)主管Il Park表示,目前他們正在標(biāo)準(zhǔn) DRAM 芯片中尋求 PIM,而不是 HBM,后者可能更容易被客戶(hù)采用。
對(duì)于 SK 海力士來(lái)說(shuō),HBM PIM 更像是一種中長(zhǎng)期的可能性。目前,客戶(hù)已經(jīng)在處理足夠多的問(wèn)題,因?yàn)樗麄冊(cè)噲D將 HBMDRAM 從物理上移到更靠近處理器的位置?!霸擃I(lǐng)域的許多專(zhuān)家不想在涉及 HBM 的已經(jīng)很繁忙的情況之上增加更多且相當(dāng)重要的復(fù)雜性,”P(pán)ark 說(shuō)。
也就是說(shuō),SK 海力士的研究人員在 2019 年與普渡大學(xué)的計(jì)算機(jī)科學(xué)家合作,對(duì)一種名為 Newton的HBM-PIM 產(chǎn)品進(jìn)行了全面設(shè)計(jì)。與三星的 Aquabolt-XL 一樣,它在存儲(chǔ)庫(kù)中放置了乘法和累加單元,以利用芯片本身的高帶寬。
此同時(shí),Rambus 研究員和杰出發(fā)明家Steven Woo表示,由于功耗問(wèn)題,位于加利福尼亞州圣何塞的 Rambus 有動(dòng)力探索 PIM 。該公司設(shè)計(jì)了處理器和內(nèi)存之間的接口,片上系統(tǒng)及其 HBM 內(nèi)存消耗的三分之二的功率用于在兩個(gè)芯片之間水平傳輸數(shù)據(jù)。在 HBM 內(nèi)垂直傳輸數(shù)據(jù)使用的能量要少得多,因?yàn)榫嚯x要短得多?!澳憧赡苄枰揭苿?dòng) 10 到 15 毫米才能將數(shù)據(jù)傳回 SoC,”Woo 說(shuō)?!暗珡拇怪狈较蚩?,你說(shuō)的是幾百微米的數(shù)量級(jí)。”
Rambus 的實(shí)驗(yàn)性 PIM 設(shè)計(jì)在 HBM 堆棧的頂部添加了一個(gè)額外的硅層來(lái)進(jìn)行 AI 計(jì)算。為了避免 HBM 中央硅通孔的潛在帶寬瓶頸,該設(shè)計(jì)添加了 TSV 以將存儲(chǔ)庫(kù)與 AI 層連接起來(lái)。Woo 認(rèn)為,在每個(gè)內(nèi)存芯片中都有一個(gè)專(zhuān)用的 AI 層可以讓內(nèi)存制造商為不同的應(yīng)用定制內(nèi)存。
采用 PIM 的速度將取決于 AI 加速器的制造商對(duì)其提供的內(nèi)存帶寬緩解的絕望程度。Technalysis Research 的首席分析師 Bob O'Donnell表示:“三星已經(jīng)投入了大量資金。”“[PIM] 能否取得商業(yè)成功還有待觀察。