作為2025世界人工智能大會(WAIC)的重要組成部分,青年菁英交流會之"下一代大模型架構(gòu)演進"于7月27日下午在上海世博中心607會議室隆重舉行。本次活動由上海人工智能行業(yè)協(xié)會主辦,是WAIC青年菁英交流會系列活動的核心環(huán)節(jié)之一,旨在匯聚人工智能領(lǐng)域的青年學(xué)者,深入探討大模型架構(gòu)演進的前沿理論與技術(shù)突破?;顒幼裱?學(xué)術(shù)引領(lǐng)、前沿思辨、范式創(chuàng)新"理念,聚焦大模型發(fā)展的理論根基與未來方向,構(gòu)建兼具理論深度與實踐價值的學(xué)術(shù)對話平臺。
會議由上海交通大學(xué)嚴峻池教授主持,西安電子科技大學(xué)徐偲副教授、上海交通大學(xué)林洲漢副教授、復(fù)旦大學(xué)熊昊助理教授作為特邀嘉賓進行了專題分享,并與現(xiàn)場觀眾進行了深度交流。
模型不確定性量化
從傳統(tǒng)模型到大模型的跨越
從貝葉斯統(tǒng)計到深度學(xué)習(xí),不確定性量化始終是機器學(xué)習(xí)領(lǐng)域的核心挑戰(zhàn)。傳統(tǒng)機器學(xué)習(xí)模型通過概率分布、置信區(qū)間等方法量化預(yù)測不確定性,但在大模型時代,亟需量化大模型輸出的置信度,避免過度自信的回答產(chǎn)生嚴重后果。
西安電子科技大學(xué)徐偲副教授深入探討了這一轉(zhuǎn)變的核心矛盾:如何在保持大模型性能的同時,準確評估其預(yù)測的置信度?隨著大模型在自動駕駛、醫(yī)療診斷等零容錯率場景的應(yīng)用,不確定性量化已從學(xué)術(shù)問題轉(zhuǎn)變?yōu)榘踩拙€。徐教授分享了其在可信多模態(tài)深度學(xué)習(xí)方面的最新研究成果,探討如何通過證據(jù)理論、動態(tài)證據(jù)融合等技術(shù),在大模型規(guī)模下實現(xiàn)可靠的不確定性估計。
“如何讓智能系統(tǒng)具備一定的自知能力”這句看似簡單的話語,道出了徐教授對可信人工智能的終極追求。在人工智能日益滲透人類生活的今天,"自知能力"承載著比技術(shù)指標更為深層的價值內(nèi)涵——它關(guān)乎智能系統(tǒng)的自我認知、決策透明,以及人機協(xié)作的和諧共生。
徐教授的這句金句,實際上是對其開創(chuàng)性研究成果《Reliable Conflictive Multi-view Learning》的哲學(xué)升華。當傳統(tǒng)多視圖學(xué)習(xí)假設(shè)不同視圖嚴格對齊時,現(xiàn)實世界中的沖突數(shù)據(jù)往往被簡單消除或替換。徐教授敏銳地意識到,真正的"自知能力"不是回避沖突,而是直面沖突并給出可靠的決策結(jié)果和不確定性度量。
在醫(yī)療診斷場景中,當MRI模態(tài)與指標模態(tài)出現(xiàn)沖突時,傳統(tǒng)方法可能直接刪除沖突數(shù)據(jù),但徐教授提出的證據(jù)沖突多視圖學(xué)習(xí)(ECML)方法卻能夠為沖突數(shù)據(jù)提供決策結(jié)果和附加可靠性。這種方法通過狄利克雷分布建模視圖特定的不確定性,通過沖突意見聚合策略精確模擬多視圖的公共和特定可靠性關(guān)系,讓智能系統(tǒng)具備了"自知能力"——不僅能夠給出預(yù)測結(jié)果,更能量化表達自己的置信程度。
徐教授深入研究了不確定性產(chǎn)生的三個階段:在數(shù)據(jù)標注階段,多模態(tài)數(shù)據(jù)本身存在內(nèi)在隨機性,收集與表示過程中可能出現(xiàn)信息丟失;在模型的構(gòu)建與訓(xùn)練階段,模型本身存在缺陷,對某些輸入或情況缺乏充分的知識與信息;在模型應(yīng)用階段,訓(xùn)練數(shù)據(jù)分布與實際應(yīng)用分布之間存在差異。這種系統(tǒng)性的不確定性分析為構(gòu)建真正可信的人工智能系統(tǒng)提供了理論基礎(chǔ)。
徐教授的研究涵蓋了可信多模態(tài)深度學(xué)習(xí)的多個關(guān)鍵方面:從《Trusted Multi-View Classification with Dynamic Evidential Fusion》到《Uncertainty-aware Multi-view Deep Learning for Internet of Things Applications》,再到《Dynamic Evidence Decoupling for Trusted Multi-view Learning》,他系統(tǒng)地解決了多模態(tài)學(xué)習(xí)中模態(tài)區(qū)分能力不同、證據(jù)融合復(fù)雜、沖突數(shù)據(jù)處理等核心問題。這些工作為構(gòu)建真正可信的人工智能系統(tǒng)提供了理論基礎(chǔ)和技術(shù)路徑,讓AI從"黑盒"走向"透明盒",從"盲目自信"走向"理性謙遜"。
自注意力機制及其衍生方法
突破計算瓶頸的探索
自注意力機制自2017年提出以來,已成為大模型成功的關(guān)鍵技術(shù)。然而,其O(n²)的計算復(fù)雜度成為制約模型規(guī)模擴展的瓶頸。當序列長度達到數(shù)萬甚至數(shù)十萬時,傳統(tǒng)注意力機制的內(nèi)存需求呈平方級增長,這直接限制了模型處理長文本的能力。
上海交通大學(xué)林洲漢副教授聚焦這一技術(shù)難題:如何在保持注意力機制核心優(yōu)勢的同時,顯著降低計算復(fù)雜度?林教授享其在關(guān)系感知的自注意力機制、用于圖的核化自注意力機制、用于檢索重排的自注意力機制等方面的突破性進展。這些方法從不同角度擴展了自注意力機制的應(yīng)用邊界,為處理復(fù)雜結(jié)構(gòu)化數(shù)據(jù)、圖數(shù)據(jù)、檢索任務(wù)等應(yīng)用場景開辟新路徑。
如何讓大模型既懂圖的結(jié)構(gòu),又保持生成能力?道出了林教授對AI技術(shù)融合創(chuàng)新的深刻洞察。在自然語言到SQL轉(zhuǎn)換等關(guān)鍵任務(wù)中,傳統(tǒng)方法面臨著根本性挑戰(zhàn):基于圖神經(jīng)網(wǎng)絡(luò)的方法對數(shù)據(jù)庫結(jié)構(gòu)化信息建模好但代碼生成能力弱,基于大語言模型微調(diào)的方法代碼生成能力強但丟失數(shù)據(jù)庫結(jié)構(gòu)信息。林教授敏銳地意識到,真正的突破不是選擇其中一條路徑,而是通過RASAT技術(shù)實現(xiàn)"怎樣把兩條路線的好處都利用上?"的目標。林教授的這句金句,實際上是對其開創(chuàng)性研究成果RASAT(Relation-Aware Self-Attention)的哲學(xué)升華。從在Mila實驗室?guī)煆腨oshua Bengio教授,到如今在上海交通大學(xué)John Hopcroft中心擔任副教授,林教授始終保持著對前沿技術(shù)的敏銳嗅覺。他長期從事機器學(xué)習(xí)與自然語言處理領(lǐng)域的研究,專注于自監(jiān)督學(xué)習(xí)、大語言模型預(yù)訓(xùn)練方法、模型記憶能力等方面,目前累計發(fā)表論文70余篇,Google Scholar引用量過萬。
林教授提出的解決方案,體現(xiàn)了其深厚的理論基礎(chǔ)和工程實踐能力。通過關(guān)系感知的自注意力機制(RASAT),他解決了自然語言到SQL轉(zhuǎn)換中數(shù)據(jù)庫結(jié)構(gòu)信息丟失的問題,通過向自注意力機制的key和value中引入關(guān)系向量,涵蓋schema encoding、schema linking、question dependency structure、coreference between questions、database content mentions五大類關(guān)系,顯著提升了SQL代碼與實際數(shù)據(jù)庫的貼合度。
通過Cluster-wise Graph Transformer,他提出了Node-to-Cluster注意力機制,解決了圖分類任務(wù)中傳統(tǒng)Graph Coarsening過程導(dǎo)致的節(jié)點信息丟失和聚類表征同質(zhì)化問題。通過保留原始節(jié)點參與運算而保護節(jié)點信息,并通過核化方法保持線性復(fù)雜度,實現(xiàn)了更高效的圖結(jié)構(gòu)處理。
通過Gumbel Reranking,他實現(xiàn)了可微的檢索重排過程,解決了RAG系統(tǒng)中檢索器和LLM分立導(dǎo)致中間步驟不可微的問題。通過將reranking過程看做hard attention(0/1分類),使用Gumbel Softmax使不可微操作變得可微,實現(xiàn)了端到端優(yōu)化reranker,在BGE、RankT5等標準設(shè)定下顯著超越傳統(tǒng)方法。
這種"關(guān)系向量"的創(chuàng)新理念,實際上是對AI技術(shù)融合本質(zhì)的深刻踐行。它超越了簡單的技術(shù)優(yōu)化,觸及了智能系統(tǒng)設(shè)計的根本問題——如何在保持大模型強大生成能力的同時,增強其對結(jié)構(gòu)化信息的理解?如何通過架構(gòu)創(chuàng)新實現(xiàn)不同技術(shù)范式的優(yōu)勢互補?林教授的研究為構(gòu)建更高效、更可擴展的大模型架構(gòu)提供了理論基礎(chǔ)和技術(shù)路徑,讓AI從"單一能力"走向"融合智能",從"技術(shù)割裂"走向"優(yōu)勢互補"。
物理啟發(fā)的大模型
從經(jīng)驗主義到理論驅(qū)動的范式轉(zhuǎn)換
無人機從地點A到地點B的最優(yōu)控制問題,涉及控制量、飛行時間、耗電量等多個維度的復(fù)雜約束,如何做到最優(yōu)控制?
當前大模型的發(fā)展主要依賴經(jīng)驗主義和工程優(yōu)化,但隨著技術(shù)發(fā)展進入深水區(qū),這種方法的邊際效益急劇下降。與此同時,物理學(xué)中的對稱性原理、守恒定律、變分原理等深刻洞察,為構(gòu)建更高效、更可解釋的智能系統(tǒng)提供了理論指導(dǎo)。
復(fù)旦大學(xué)熊昊助理教授探討了這一前沿方向:如何將物理學(xué)原理有效融入大模型架構(gòu)設(shè)計?物理啟發(fā)的方法有望解決當前大模型在泛化能力、計算效率、可解釋性等方面的根本挑戰(zhàn)。熊教授分享了其在智能科學(xué)計算方面的創(chuàng)新成果,展示如何通過物理先驗知識指導(dǎo)模型設(shè)計,實現(xiàn)從數(shù)據(jù)驅(qū)動到理論驅(qū)動的范式轉(zhuǎn)換。
熊教授的這個設(shè)問,道出了他對物理啟發(fā)AI方法本質(zhì)的深刻洞察。在傳統(tǒng)最優(yōu)控制理論面臨根本性挑戰(zhàn)的今天,物理啟發(fā)的AI方法為求解復(fù)雜動態(tài)系統(tǒng)提供了全新的思路。當傳統(tǒng)最優(yōu)控制方法面臨三個根本性挑戰(zhàn)時——動力系統(tǒng)的不確定性、迭代式求解復(fù)雜度高、求解器只能解決一類問題且隨環(huán)境變化會出現(xiàn)覆蓋不到的問題,熊教授敏銳地意識到,真正的突破不是回避這些挑戰(zhàn),而是直面它們并給出基于物理啟發(fā)的AI求解方案。
在"AI for Science"方面,熊教授專注于高維PDE演化算子學(xué)習(xí)和最優(yōu)控制問題算子學(xué)習(xí)。他提出的SINGER方法通過神經(jīng)網(wǎng)絡(luò)代理解滿足三個關(guān)鍵性質(zhì),在熱方程和HJB方程等8組5-20維方程仿真數(shù)據(jù)上實現(xiàn)了精度提升約1個數(shù)量級的突破性成果。
在最優(yōu)控制問題算子學(xué)習(xí)方面,熊教授提出了基于自適應(yīng)譜方法+神經(jīng)算子的AI求解器。該方法通過NASM架構(gòu),在7組仿真數(shù)據(jù)和1組真實數(shù)據(jù)上實現(xiàn)了求解速度相對傳統(tǒng)算法加快1000倍的突破性進展,同時保持了優(yōu)異的泛化性能。
在"Science for AI"方面,熊教授探索了分子動理學(xué)啟發(fā)的網(wǎng)絡(luò)架構(gòu)、優(yōu)化器,以及量子啟發(fā)的高階算子等前沿方向。這些物理啟發(fā)的方法不僅能夠提升模型的泛化能力和計算效率,更重要的是為AI系統(tǒng)提供了可解釋的理論基礎(chǔ)。
在分子動理學(xué)啟發(fā)的網(wǎng)絡(luò)架構(gòu)方面,熊教授提出了KITINet方法。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中簡單的加法操作不同,KITINet引入了基于碰撞理論的交互機制,通過碰撞機制產(chǎn)生新的速度和位置,這種基于PDE仿真方法的網(wǎng)絡(luò)架構(gòu)顯著提升了模型的表達能力。
在分子動理學(xué)啟發(fā)的優(yōu)化器方面,熊教授提出了KO優(yōu)化器。該優(yōu)化器通過"碰撞(熵增)抵消凝聚"的機制,有效防止了模型訓(xùn)練過程中的模式崩塌問題。在ImageNet-1K數(shù)據(jù)集上,ResNet50+KO相比傳統(tǒng)優(yōu)化器在Top-1準確率上實現(xiàn)了顯著提升。
在量子啟發(fā)的高階算子方面,熊教授提出了HOLinear高階線性映射算子。該方法通過構(gòu)建高階嵌入表征,將傳統(tǒng)的1階表示擴展為包含0階、1階、2階直至K階的完整表示體系。在LLaMA2 7B模型的微調(diào)實驗中,C2Q-SFT方法在多個下游任務(wù)上均實現(xiàn)了相對于標準SFT的正向改進,特別是在數(shù)學(xué)推理任務(wù)GSM8k上實現(xiàn)了+5.61%的顯著提升。
這種從具體問題到通用求解器的發(fā)展路徑,實際上是對AI技術(shù)演進規(guī)律的深刻洞察。正如熊教授所探索的無人機最優(yōu)控制問題,通過將具體的工程問題抽象為數(shù)學(xué)優(yōu)化問題,再通過物理啟發(fā)的AI方法求解,可以構(gòu)建出在特定任務(wù)上表現(xiàn)卓越的"特長生"系統(tǒng)。
這種物理啟發(fā)的研究范式,實際上是對科學(xué)交叉融合的深刻踐行。它超越了簡單的技術(shù)優(yōu)化,觸及了智能計算的本質(zhì)問題——如何從具體的工程問題中抽象出數(shù)學(xué)本質(zhì)?如何構(gòu)建能夠適應(yīng)環(huán)境變化的智能求解器?熊教授的研究為構(gòu)建更高效、更可持續(xù)的智能系統(tǒng)提供了理論基礎(chǔ)和技術(shù)路徑,讓AI從"經(jīng)驗主義"走向"理論驅(qū)動",從"暴力堆參"走向"精妙設(shè)計"。
圓桌思辨
大模型架構(gòu)演進的未來路徑
在三個專題分享后,嚴峻池教授主持了圓桌思辨環(huán)節(jié),四位教授與現(xiàn)場青年菁英進行了深度交流。嚴峻池教授拋磚引玉,圍繞大模型架構(gòu)演進的核心議題提出了系列問題,帶動與會嘉賓積極討論。
與會專家首先深入探討了強化學(xué)習(xí)思維鏈的改進與泛化能力提升問題。專家們認為強化學(xué)習(xí)本身在泛化性方面比注意力機制更具優(yōu)勢,通過模型自我認知、自我反省機制,結(jié)合檢索知識對問題進行補充,能夠有效提升模型性能。針對如何克服模型高幻覺、低泛化的問題,專家們分享了各自的實踐經(jīng)驗,檢索器在針對不同模型時的重要性也得到了充分討論。
針對SFT存在的兩重約束——非真實環(huán)境交互和標注數(shù)據(jù)限制,專家們分享了通過交互形式學(xué)習(xí)提高模型準確性的實踐經(jīng)驗?;谒季S鏈的冷啟動學(xué)習(xí)能夠?qū)崿F(xiàn)更好的泛化性,利用較少的標注數(shù)據(jù)改進強化學(xué)習(xí)算法成為討論焦點。與會專家一致認為,交互式學(xué)習(xí)與數(shù)據(jù)效率的平衡是當前大模型發(fā)展面臨的重要挑戰(zhàn)。
在多模態(tài)融合的架構(gòu)挑戰(zhàn)方面,與會專家探討了視覺數(shù)據(jù)和人造眼技術(shù)對改進多模態(tài)能力的貢獻。專家們強調(diào)訓(xùn)練方法的改進比技術(shù)本身更為重要,多模態(tài)在訓(xùn)練困難、對齊困難等方面的挑戰(zhàn)需要系統(tǒng)性解決方案。盡管應(yīng)用前景廣闊,但多模態(tài)技術(shù)面臨的根本性挑戰(zhàn)不容忽視,需要從架構(gòu)設(shè)計層面進行根本性突破。
專家們還分析了多模態(tài)在本地端側(cè)云測異構(gòu)環(huán)境中的高效部署問題。多系統(tǒng)協(xié)同是大模型落地的現(xiàn)實情況,涉及分布式計算、西電東算等國家戰(zhàn)略。與會專家討論了異構(gòu)大模型的未來發(fā)展方向,以及如何設(shè)計適應(yīng)異構(gòu)環(huán)境的優(yōu)化算法,包括手機NPU等新型架構(gòu)的應(yīng)用前景。
隨著國產(chǎn)AI芯片的快速發(fā)展,與會專家討論了其在大型模型訓(xùn)練中的應(yīng)用潛力。專家們分析了國產(chǎn)芯片在算力、能效比、生態(tài)適配等方面面臨的挑戰(zhàn)和機遇,探討了如何通過架構(gòu)優(yōu)化和算法適配,充分發(fā)揮國產(chǎn)芯片在大模型訓(xùn)練中的優(yōu)勢。國產(chǎn)芯片生態(tài)的完善對大模型技術(shù)自主可控的重要意義得到了充分認可。
在可解釋性方面,專家們深入討論了如何通過架構(gòu)設(shè)計提升模型的推理透明度和決策可追溯性。徐教授從不確定性量化的角度指出,可解釋性不僅需要模型能夠解釋其決策過程,更需要量化表達決策的置信度。物理啟發(fā)的方法為構(gòu)建可解釋的AI系統(tǒng)提供了新的思路,與會專家探討了如何平衡模型性能與可解釋性之間的關(guān)系,評估了可解釋性技術(shù)在實際應(yīng)用中的價值和局限性。
后記
當前,大模型技術(shù)正處于從"工程化應(yīng)用"向"理論根基重構(gòu)"的關(guān)鍵拐點。傳統(tǒng)基于經(jīng)驗的調(diào)參方法已接近極限,理論突破成為推動技術(shù)發(fā)展的核心動力。在這一歷史性時刻,青年專家的創(chuàng)新思維和理論突破將決定AI技術(shù)的未來走向。
青年菁英交流會作為WAIC的重要組成部分,由上海人工智能行業(yè)協(xié)會承辦,致力于構(gòu)建"人才-成果-產(chǎn)業(yè)"的良性循環(huán)生態(tài)。通過學(xué)術(shù)資源整合、國際合作對接、成果轉(zhuǎn)化支持等多維舉措,為青年專家提供持續(xù)發(fā)展的學(xué)術(shù)平臺。優(yōu)秀成果將編入《青年菁英交流會論文精粹集》,并有機會通過大會與Nature正刊及人工智能子刊等國際頂級期刊建立的合作通道快速發(fā)表。
從不確定性量化到注意力機制優(yōu)化,從物理啟發(fā)方法到跨學(xué)科融合,這場匯聚青年智慧的學(xué)術(shù)盛宴,成為了觀察大模型架構(gòu)演進方向的重要窗口。7月27日下午,與會嘉賓共同見證了這場聚焦未來的思辨之約,見證了大模型技術(shù)從理論根基到架構(gòu)創(chuàng)新的歷史性跨越。青年專家們用他們的創(chuàng)新思維和理論突破,正在為AI技術(shù)的未來發(fā)展開辟新的道路,引領(lǐng)著人工智能技術(shù)邁向更加輝煌的新紀元。
(來源:世界人工智能大會)