技術(shù)
導(dǎo)讀:北京2023年3月8日 -- 經(jīng)過(guò)60余年的等待,生成式AI(Generative AI)終于爆發(fā)了。
北京2023年3月8日 -- 經(jīng)過(guò)60余年的等待,生成式AI(Generative AI)終于爆發(fā)了。
早在1957年,萊杰倫·希勒和倫納德·艾薩克森就完成了歷史上第一支由計(jì)算機(jī)創(chuàng)作的弦樂(lè)四重奏《伊利亞克組曲》。而生成式AI真正走向產(chǎn)業(yè)化發(fā)展則是在2022年。這一年,Stability AI獲得超過(guò)一億美元的融資,估值突破十億美元,并選擇亞馬遜云科技作為首選云供應(yīng)商,其提供的開(kāi)源AI模型Stable Diffusion可以根據(jù)用戶(hù)輸入的文字自動(dòng)生成圖片。Stability AI由此成為生成式AI領(lǐng)域第一家獨(dú)角獸企業(yè)。
Gartner預(yù)計(jì),到2025年,大型企業(yè)機(jī)構(gòu)對(duì)外營(yíng)銷(xiāo)信息中的合成信息比例將從2022年的不到2%上升到30%。
在生成式AI方面,亞馬遜云科技已經(jīng)深耕了很長(zhǎng)時(shí)間,擁有成熟的生成式AI專(zhuān)屬解決方案,既提供經(jīng)過(guò)廣泛驗(yàn)證且易于部署的先進(jìn)AI算法模型,又提供豐富且高性?xún)r(jià)比的云端資源以?xún)?yōu)化成本,旨在幫助游戲、電商、媒體、影視、廣告、傳媒等行業(yè)快速構(gòu)建生成式AI應(yīng)用通路,打造AI時(shí)代的領(lǐng)先生產(chǎn)力。
"從AI技術(shù)發(fā)展來(lái)看,生成式AI開(kāi)啟了一次范式變遷。大模型、多模態(tài)、高算力和海量數(shù)據(jù)將主導(dǎo)新一輪科技范式的發(fā)展,為內(nèi)容、營(yíng)銷(xiāo)、游戲等行業(yè)帶來(lái)顛覆性創(chuàng)新。"亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建表示,"亞馬遜云科技廣泛而深入的生成式AI專(zhuān)屬解決方案,以先進(jìn)的性能、更優(yōu)的性?xún)r(jià)比和全面的服務(wù)賦能千行百業(yè),助力各個(gè)規(guī)模的企業(yè)擁抱生成式AI的浪潮。"
降低成本,讓生成式AI觸手可及
亞馬遜云科技認(rèn)為,目前生成式AI模型主要集中在文本和圖片生成,正在逐步滲透到音頻和視頻內(nèi)容生成,未來(lái)將出現(xiàn)越來(lái)越多的跨模態(tài)/多模態(tài)內(nèi)容生成。通用大模型更容易引發(fā)熱議,但對(duì)企業(yè)而言,針對(duì)特定場(chǎng)景的模型在成本和準(zhǔn)確度方面都更具優(yōu)勢(shì),也是目前企業(yè)主要采用的模型。芯片性能和高質(zhì)量訓(xùn)練既是生成式AI爆發(fā)的基礎(chǔ),也是其實(shí)現(xiàn)飛躍式發(fā)展的瓶頸。
之前模型的參數(shù)量級(jí)可能是千級(jí)或百萬(wàn)級(jí),但今天擁有十億百億級(jí)參數(shù)的模型比比皆是,下一代模型有可能會(huì)朝著萬(wàn)億級(jí)參數(shù)級(jí)別去發(fā)展。因此,降低大模型的成本至關(guān)重要。
雖然,機(jī)器學(xué)習(xí)的芯片差不多每?jī)赡昊蛎繋啄昃蜁?huì)有一倍或數(shù)倍的提升,但仍然不足以跟上訓(xùn)練模型復(fù)雜度的提升。替代的解決辦法就是利用分布式多處理器,通過(guò)一個(gè)網(wǎng)絡(luò)進(jìn)行協(xié)同計(jì)算、協(xié)同訓(xùn)練。亞馬遜云科技專(zhuān)門(mén)為云中高性能模型訓(xùn)練而搭建的Trn1實(shí)例最多可以搭載16顆專(zhuān)門(mén)用于機(jī)器學(xué)習(xí)訓(xùn)練的Trainium芯片,512GB加速器內(nèi)存和800GBps的網(wǎng)絡(luò)帶寬。
Trn1是擁有高性?xún)r(jià)比的深度學(xué)習(xí)實(shí)例,與基于GPU的類(lèi)似實(shí)例相比,訓(xùn)練成本降低了50%。以一個(gè)具備萬(wàn)億級(jí)參數(shù)的大模型進(jìn)行兩周訓(xùn)練為例,GPU服務(wù)器P3dn需要600個(gè)實(shí)例,最新一代GPU實(shí)例P4d需要128個(gè)實(shí)例,但Trn1只需要用96個(gè)實(shí)例。
2022亞馬遜云科技re:Invent全球大會(huì)推出了一款基于Trn1的網(wǎng)絡(luò)優(yōu)化型實(shí)例Trn1n,進(jìn)一步把網(wǎng)絡(luò)帶寬增加一倍,從800GBps躍升到1600GBps,其強(qiáng)大的網(wǎng)絡(luò)吞吐能力能夠?qū)⒊^(guò)1萬(wàn)個(gè)Trainium芯片構(gòu)建在一個(gè)超大規(guī)模集群里,并在集群中進(jìn)行模型的并行訓(xùn)練。
除訓(xùn)練外,大模型也需要超高的推理能力。所以亞馬遜云科技構(gòu)建了Inf1實(shí)例,用自研的推理芯片Inferentia提供支持,實(shí)現(xiàn)低延時(shí)低成本的推理。Inf1實(shí)例和GPU的實(shí)例相比,每次推理成本可以降低70%。
亞馬遜云科技re:Invent全球大會(huì)還推出了下一代自研推理芯片Inferentia2以及基于此的Amazon EC2 Inf2實(shí)例。這是唯一一個(gè)專(zhuān)門(mén)為大型Transformer模型分布式推理建立的實(shí)例。與Inf1實(shí)例相比,它提供高達(dá)4倍的吞吐量,降低多達(dá)10倍的延遲,與基于GPU的實(shí)例相比,每瓦性能提升高達(dá)45%,同時(shí)也支持諸如GPT類(lèi)型的大型復(fù)雜模型,并且可以用單實(shí)例實(shí)現(xiàn)1750億參數(shù)模型的推理。
行業(yè)先行者的最佳實(shí)踐
以AI繪畫(huà)走紅全球的Stability AI備受矚目,其開(kāi)源AI模型Stable Diffusion自2022年8月推出以來(lái),已經(jīng)被全球超過(guò)20萬(wàn)開(kāi)發(fā)者下載和授權(quán)。在算力需求方面,Stable Diffusion模型所需的算力硬件成本已超過(guò)5000萬(wàn)美元。
Stability AI利用亞馬遜云科技上的大規(guī)模GPU集群和Amazon Trainium機(jī)器學(xué)習(xí)訓(xùn)練芯片組成的高性能計(jì)算集群來(lái)訓(xùn)練其生成式AI基礎(chǔ)模型,并通過(guò)云上模型訓(xùn)練的彈性來(lái)優(yōu)化成本,最終將其使用的GPT-NeoX等開(kāi)源語(yǔ)言模型的訓(xùn)練時(shí)間和成本減少58%。
Qualtrics是一家設(shè)計(jì)和開(kāi)發(fā)體驗(yàn)管理軟件的公司。"Qualtrics的重點(diǎn)是借助技術(shù)創(chuàng)新縮小體驗(yàn)差距。為實(shí)現(xiàn)這一目標(biāo),我們正在開(kāi)發(fā)復(fù)雜的多任務(wù)、多模態(tài)的深度學(xué)習(xí)模型,包括文本分類(lèi)、序列標(biāo)記、話語(yǔ)分析、關(guān)鍵短語(yǔ)提取、主題提取、聚類(lèi)以及端到端對(duì)話理解等。"Qualtrics 核心機(jī)器學(xué)習(xí)負(fù)責(zé)人 Aaron Colak 表示,"隨著我們?cè)诟鄳?yīng)用程序中使用這些復(fù)雜的模型以及非結(jié)構(gòu)化數(shù)據(jù)量不斷增長(zhǎng),為給客戶(hù)提供最佳體驗(yàn),我們需要像Inf2 實(shí)例這樣性能更高的推理優(yōu)化解決方案來(lái)滿(mǎn)足我們的需求。我們很高興看到新一代 Inf2 實(shí)例的推出,它不僅讓我們實(shí)現(xiàn)更高的吞吐量,顯著降低延遲,而且還引入了分布式推理和支持增強(qiáng)的動(dòng)態(tài)形狀輸入等功能。隨著我們部署更大、更復(fù)雜的模型,這將能進(jìn)一步滿(mǎn)足我們對(duì)部署的更高要求。"