想象一下,如果人工智能(AI)模型能像人腦一樣,規(guī)模小,耗能少,但具備同樣復雜功能,那現(xiàn)階段 AI 模型訓練的耗能大、難理解的瓶頸是不是就能解決了?
中國科學院自動化研究所李國齊、徐波研究員團隊聯(lián)合清華大學、北京大學等團隊便在這一方面取得了突破——
他們借鑒大腦神經(jīng)元復雜動力學特性,提出了“基于內(nèi)生復雜性”的類腦神經(jīng)元模型構(gòu)建方法,而非基于 Scaling Law 去構(gòu)建更大、更深和更寬的神經(jīng)網(wǎng)絡。這種方法不僅改善了傳統(tǒng)模型通過向外拓展規(guī)模帶來的計算資源消耗問題,還保持了性能,內(nèi)存使用量減少了 4 倍,處理速度提高了 1 倍。
研究論文以“Network model with internal complexity bridges artificial intelligence and neuroscience”為題,發(fā)表在權(quán)威期刊 Nature Computational Science 上。共同通訊作者為中國科學院自動化所李國齊研究員、徐波研究員,北京大學田永鴻教授。共同一作是清華大學錢學森班的本科生何林軒(自動化所實習生),數(shù)理基科班本科生徐蘊輝(自動化所實習生),清華大學精儀系博士生何煒華和林逸晗。
李國齊解釋說,構(gòu)建更大、更復雜的神經(jīng)網(wǎng)絡的流行方法,稱為“基于外生復雜性”,消耗了大量的能源和計算能力,同時缺乏可解釋性。相比之下,擁有 1000 億個神經(jīng)元和 1000 萬億個突觸連接的人腦僅需 20 瓦的功率即可高效運行。
加州大學圣克魯斯分校 Jason Eshraghian 團隊在評論文章中表示,這一發(fā)現(xiàn)暗示了 AI 發(fā)展的潛在轉(zhuǎn)變。盡管大語言模型(LLM)的成功展示了通過大量參數(shù)計數(shù)和復雜架構(gòu)的外部復雜性的力量,但這項新的研究表明,增強內(nèi)部復雜性可能提供了改善 AI 性能和效率的替代路徑。
他們還表示,AI中的內(nèi)部與外部復雜性之爭仍然開放,兩種方法在未來發(fā)展中都可能發(fā)揮作用。通過重新審視和深化神經(jīng)科學與 AI 之間的聯(lián)系,我們可能會發(fā)現(xiàn)構(gòu)建更高效、更強大,甚至更“類腦”的 AI 系統(tǒng)的新方法。
效果怎么樣?
本研究首先展示了脈沖神經(jīng)網(wǎng)絡神經(jīng)元 LIF(Leaky Integrate and Fire)模型和 HH(Hodgkin-Huxley)模型在動力學特性上存在等效性,進一步從理論上證明了 HH 神經(jīng)元可以和四個具有特定連接結(jié)構(gòu)的時變參數(shù) LIF 神經(jīng)元(tv-LIF)動力學特性等效。
基于這種等效性,團隊通過設計微架構(gòu)提升計算單元的內(nèi)生復雜性,使 HH 網(wǎng)絡模型能夠模擬更大規(guī)模 LIF 網(wǎng)絡模型的動力學特性,在更小的網(wǎng)絡架構(gòu)上實現(xiàn)與之相似的計算功能。進一步,團隊將由四個 tv-LIF 神經(jīng)元構(gòu)建的“HH 模型”(tv-LIF2HH)簡化為 s-LIF2HH 模型,通過仿真實驗驗證了這種簡化模型在捕捉復雜動力學行為方面的有效性。
圖|一種從 tv-LIF 過渡到 HH 的方法,它將外部連接的復雜性收斂到單個神經(jīng)元的內(nèi)部。
在多樣化的輸入下,s-LIF2HH 和 HH 網(wǎng)絡的尖峰率和時間相似,尖峰活動的近似仍然存在,減少了計算成本并增強了生物可塑性,使得模型更適用于基于反向傳播的訓練。
對于方波、正弦波、三角波和鋸齒波輸入的平均相對誤差分別為 3.3%,7.3%,5.8% 和 8.7%,均低于10%。這些不同輸入下的結(jié)果確認了 s-LIF2HH 和 HH 模型產(chǎn)生了相似的尖峰計數(shù),并且在發(fā)放時間上緊密對齊,展示了整體發(fā)放模式的相似性。這種普遍性意味著 HH 和 s-LIF2HH 模型之間的近似動力學在不同任務中持續(xù)存在。
圖|高精度仿真案例的等效圖。
單個 HH 神經(jīng)元的增強信息處理能力補償了更簡單的拓撲結(jié)構(gòu);因此,HH 神經(jīng)元的內(nèi)部復雜性與 s-LIF2HH 子網(wǎng)絡的外部復雜性相當。具有更大內(nèi)部復雜性的模型可以與具有更大外部復雜性的模型相匹配,而僅僅增加網(wǎng)絡規(guī)模無法彌合這些與更簡單模型之間的差距。
HH 和 s-LIF2HH 模型表現(xiàn)相似,都明顯優(yōu)于 LIF;4×LIF 略優(yōu)于 LIF,而 b-ANN 略遜色但仍可比較。HH 和 s-LIF2HH 網(wǎng)絡由于其復雜的結(jié)構(gòu),在時序信息提取方面具有強大的能力,這優(yōu)于僅僅增加網(wǎng)絡規(guī)模。
研究團隊還進行了魯棒性測試,以補充驗證 HH 和 s-LIF2HH 網(wǎng)絡的可比性。結(jié)果表明,HH 和 s-LIF2HH 網(wǎng)絡具有相似的噪聲魯棒性,而魯棒性源自 HH 神經(jīng)元的動態(tài)復雜性和 s-LIF2HH 的復雜拓撲,而不僅僅是神經(jīng)元數(shù)量。這表明,模型內(nèi)部復雜性與外部復雜性之間具有等效性,并且它們在深度學習任務中比具有簡單動力學增加規(guī)模的模型有更加明顯的優(yōu)勢。
圖|深度學習任務中的表征能力和魯棒性。
HH 網(wǎng)絡的 FLOPs 高于 LIF 網(wǎng)絡,但與相同結(jié)構(gòu)的 s-LIF2HH 網(wǎng)絡相比大約低 50%,這表明層間連接對總 FLOPs 的貢獻大于神經(jīng)元操作。HH 和 LIF 網(wǎng)絡的可訓練參數(shù)數(shù)量相同,而與 s-LIF2HH 網(wǎng)絡相比,可訓練參數(shù)數(shù)量大約減少 25%。
由于 HH 網(wǎng)絡需要較少的計算,因此其時間消耗也相應較低。HH-fc 和 HH-conv 網(wǎng)絡在推理過程中分別比 s-LIF2HH-fc 和 s-LIF2HH-conv 網(wǎng)絡大約快 30% 和 45%,在訓練過程中分別大約快 36% 和 52%。盡管 HH 和 s-LIF2HH 網(wǎng)絡比 LIF 網(wǎng)絡慢,但 HH 網(wǎng)絡使用較少的計算資源,且比 s-LIF2HH 網(wǎng)絡快。這些結(jié)果表明,與 s-LIF2HH 網(wǎng)絡相比,HH 網(wǎng)絡提供了顯著的計算效率,證明了將外部復雜性轉(zhuǎn)化為內(nèi)部復雜性可以提高深度學習模型的效率。
圖|計算資源和統(tǒng)計指標分析。
HH 網(wǎng)絡的 I (X, Z) 與 LIF 網(wǎng)絡相當,但遠低于 s-LIF2HH 網(wǎng)絡。相反,HH 網(wǎng)絡的 I (Z, Y) 與 s-LIF2HH 網(wǎng)絡相似,但優(yōu)于 LIF 網(wǎng)絡。這表明 HH 模型與 s-LIF2HH 模型相比具有較低的復雜性但相似的表示能力,與 LIF 模型相比具有類似的復雜性但更好的表示能力。
不足與展望
這項研究為構(gòu)建更高效、更強大的 AI 系統(tǒng)提供了新的思路,并為將神經(jīng)科學成果應用于 AI 研究提供了理論支持。
但是,研究也存在一定的局限性。例如,HH 和 s-LIF2HH 模型在深度學習實驗中具有不同的脈沖模式,這表明模擬中近似的動態(tài)特性可能不是它們可比性的良好解釋。這種現(xiàn)象可能源于它們基本單元(HH 神經(jīng)元和 s-LIF2HH 子網(wǎng)絡)固有的相似復雜性。
此外,由于神經(jīng)元非線性和脈沖機制的局限性,本研究僅在小型網(wǎng)絡中進行了,未來將研究更大規(guī)模的網(wǎng)絡和單個網(wǎng)絡中多種神經(jīng)元模型的影響。
目前,研究團隊已開展對更大規(guī)模 HH 網(wǎng)絡,以及具備更大內(nèi)生復雜性的多分支多房室神經(jīng)元的研究,有望進一步提升大模型計算效率與任務處理能力,實現(xiàn)在實際應用場景中的快速落地。
內(nèi)部復雜性小的模型方法可能為開發(fā)更高級和混合的 AI 提供了一條有希望的途徑。未來,研究團隊表示,他們希望更多研究人員關注復雜性這一主題,并利用神經(jīng)科學的發(fā)現(xiàn)進行 AI 研究。