物聯(lián)網(wǎng)

趨勢洞見 | 多模態(tài)預(yù)訓(xùn)練大模型

ainet.cn   2023年01月18日

2003年,身在加拿大的科學(xué)家約書亞·本吉奧(Yoshua Bengio)提出了一種新的算法理念,他將這稱之為神經(jīng)網(wǎng)絡(luò)語言模型——Nerual Network Language Models。整整十年后的2013年,Google提出了基于神經(jīng)網(wǎng)絡(luò)的語言模型Word2Vec,這也在隨后作為很多自然語言處理領(lǐng)域的重要初始化輸入,得到很大的應(yīng)用。

又過了整整十年,預(yù)訓(xùn)練模型已經(jīng)獲得了快速發(fā)展,從而展現(xiàn)出了巨大的技術(shù)魅力。目前,人工智能正在從文本、語音、視覺等單模態(tài)智能,向著多種模態(tài)融合的通用人工智能方向發(fā)展。多模態(tài)統(tǒng)一建模,目的是增強(qiáng)模型的跨模態(tài)語義對齊能力,打通各個模態(tài)之間的關(guān)系,使得模型逐步標(biāo)準(zhǔn)化。

目前,技術(shù)的突出進(jìn)展來自CLIP(匹配圖像和文本)和BEiT-3(通用多模態(tài)基礎(chǔ)模型)?;诙囝I(lǐng)域知識構(gòu)建統(tǒng)一、跨場景、多任務(wù)的多模態(tài)基礎(chǔ)模型,已成為人工智能重點(diǎn)方向。未來,大模型作為基礎(chǔ)設(shè)施,將實(shí)現(xiàn)圖像、文本、音頻統(tǒng)一知識表示,并朝著能推理、能回答問題、能總結(jié)、做創(chuàng)作的認(rèn)知智能方向演進(jìn)。

趨勢解讀

基于深度學(xué)習(xí)的多模態(tài)預(yù)訓(xùn)練是認(rèn)知智能快速發(fā)展的重要推動力。構(gòu)建多場景、多任務(wù)的預(yù)訓(xùn)練大模型將加速模型標(biāo)準(zhǔn)化進(jìn)程,為人工智能模型成為基礎(chǔ)設(shè)施創(chuàng)造條件。深度學(xué)習(xí)模型的不斷完善、互聯(lián)網(wǎng)海量真實(shí)數(shù)據(jù)的積累和生成式預(yù)訓(xùn)練的廣泛應(yīng)用,使得人工智能模型在自然語言理解、語音處理、計算機(jī)視覺等領(lǐng)域的交叉應(yīng)用取得顯著進(jìn)展。

2022年,技術(shù)上的突出進(jìn)展來自于BEiT-3多模態(tài)基礎(chǔ)模型,該模型在視覺-語言任務(wù)處理上具備出色表現(xiàn),包括視覺問答、圖片描述生成和跨模態(tài)檢索等。BEiT-3通過統(tǒng)一的模型框架和骨干網(wǎng)絡(luò)(backbone)建模,能夠更加輕松地完成多模態(tài)編碼和處理不同的下游任務(wù)。另一方面,CLIP(Contrastive Language-Image Pre-training)的廣泛應(yīng)用也促進(jìn)了多模態(tài)模型的技術(shù)發(fā)展。CLIP作為基于對比學(xué)習(xí)的預(yù)訓(xùn)練模型,負(fù)責(zé)從文本特征映射到圖像特征,能夠指導(dǎo)GAN或擴(kuò)散模型(diffusion model)生成圖像。在文生圖領(lǐng)域, Stable Diffusion也使用了CLIP,它能夠通過文本提示調(diào)整模型,并借助擴(kuò)散模型改善圖像質(zhì)量。

與此同時,開源極大促進(jìn)了多模態(tài)的融合和預(yù)訓(xùn)練模型的發(fā)展。通過開源來降低模型使用門檻,將大模型從一種新興的AI技術(shù)轉(zhuǎn)變?yōu)榉€(wěn)健的基礎(chǔ)設(shè)施,已成為許多大模型開發(fā)者的共識。

多模態(tài)預(yù)訓(xùn)練模型的發(fā)展將重塑人工智能商業(yè)模式,并為人們的生產(chǎn)生活方式帶來積極影響。對個人而言,類似CLIP的多模態(tài)模型,將使更多非技術(shù)出身的人能夠表達(dá)自己的創(chuàng)造力,無需再借助工具和編程專業(yè)能力。對企業(yè)來說,多模態(tài)預(yù)訓(xùn)練模型將成為企業(yè)生產(chǎn)效率提升的關(guān)鍵。商業(yè)模式上,具備大數(shù)據(jù)、算力資源和模型開發(fā)能力的科技企業(yè),將會成為模型服務(wù)的提供方,幫助企業(yè)將基礎(chǔ)模型的能力與生產(chǎn)流程融合起來,實(shí)現(xiàn)效率和成本最優(yōu)。

認(rèn)知智能的發(fā)展,不會局限在文本或圖像等單一的模態(tài)上。未來,如何針對不同模態(tài)建立更高效的模型架構(gòu)和統(tǒng)一的骨干網(wǎng)絡(luò),使得大模型能夠廣泛地支持各種下游任務(wù)將成為主要挑戰(zhàn)。在此基礎(chǔ)上,更多的挑戰(zhàn)來自于挖掘不同模態(tài)(如圖像-文本,文本-自然語言,視頻-文本)數(shù)據(jù)間的相關(guān)信息,并巧妙設(shè)計預(yù)訓(xùn)練任務(wù),讓模型更好捕捉不同模態(tài)信息之間的關(guān)聯(lián)。

語音、視覺和多模態(tài)預(yù)訓(xùn)練模型將加速人工智能向通用基礎(chǔ)模型方向演進(jìn)。在這個過程中,深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相互促進(jìn)發(fā)展,融合大量行業(yè)知識,模型將具備在不斷變化的環(huán)境中快速適應(yīng)的靈活性。建立統(tǒng)一的、跨場景、多任務(wù)的多模態(tài)基礎(chǔ)模型會成為人工智能發(fā)展的主流趨勢之一。隨著技術(shù)的不斷成熟,大模型在開發(fā)成本、易用性、開發(fā)周期、性能上會更具優(yōu)勢,給產(chǎn)品化和商業(yè)化帶來更多可能性。

(達(dá)摩院)

標(biāo)簽:達(dá)摩院 多模態(tài)預(yù)訓(xùn)練大模型 我要反饋 
泰科電子ECK、ECP系列高壓直流接觸器白皮書下載
優(yōu)傲機(jī)器人下載中心
億萬克
專題報道
2025世界人工智能大會
2025世界人工智能大會

2025世界人工智能大會暨人工智能全球治理高級別會議(簡稱“WAIC 2025”)將于7月在上海世博中心和世博展覽館舉行... [更多]

加入全球AI浪潮第一現(xiàn)場
加入全球AI浪潮第一現(xiàn)場

2025世界人工智能大會暨人工智能全球治理高級別會議將于7月26日至28日在上海世博中心和世博展覽館舉辦,本屆大會主題為... [更多]

聚力同行 · 新智“碳”索
聚力同行 · 新智“碳”索

“新華社-智能·零碳”項(xiàng)目策劃以“聚力同行·新智‘碳’索”為主題的新能源專題,主要圍繞光伏、儲能、鋰電、氫能、風(fēng)能五大新... [更多]