趨勢洞見 | 多模態(tài)預(yù)訓(xùn)練大模型

ainet.cn 2023年01月18日

2003年，身在加拿大的科學(xué)家約書亞·本吉奧(Yoshua Bengio)提出了一種新的算法理念，他將這稱之為神經(jīng)網(wǎng)絡(luò)語言模型——Nerual Network Language Models。整整十年后的2013年，Google提出了基于神經(jīng)網(wǎng)絡(luò)的語言模型Word2Vec，這也在隨后作為很多自然語言處理領(lǐng)域的重要初始化輸入，得到很大的應(yīng)用。

又過了整整十年，預(yù)訓(xùn)練模型已經(jīng)獲得了快速發(fā)展，從而展現(xiàn)出了巨大的技術(shù)魅力。目前，人工智能正在從文本、語音、視覺等單模態(tài)智能，向著多種模態(tài)融合的通用人工智能方向發(fā)展。多模態(tài)統(tǒng)一建模，目的是增強(qiáng)模型的跨模態(tài)語義對齊能力，打通各個模態(tài)之間的關(guān)系，使得模型逐步標(biāo)準(zhǔn)化。

目前，技術(shù)的突出進(jìn)展來自CLIP(匹配圖像和文本)和BEiT-3(通用多模態(tài)基礎(chǔ)模型)?；诙囝I(lǐng)域知識構(gòu)建統(tǒng)一、跨場景、多任務(wù)的多模態(tài)基礎(chǔ)模型，已成為人工智能重點(diǎn)方向。未來，大模型作為基礎(chǔ)設(shè)施，將實(shí)現(xiàn)圖像、文本、音頻統(tǒng)一知識表示，并朝著能推理、能回答問題、能總結(jié)、做創(chuàng)作的認(rèn)知智能方向演進(jìn)。

趨勢解讀

基于深度學(xué)習(xí)的多模態(tài)預(yù)訓(xùn)練是認(rèn)知智能快速發(fā)展的重要推動力。構(gòu)建多場景、多任務(wù)的預(yù)訓(xùn)練大模型將加速模型標(biāo)準(zhǔn)化進(jìn)程，為人工智能模型成為基礎(chǔ)設(shè)施創(chuàng)造條件。深度學(xué)習(xí)模型的不斷完善、互聯(lián)網(wǎng)海量真實(shí)數(shù)據(jù)的積累和生成式預(yù)訓(xùn)練的廣泛應(yīng)用，使得人工智能模型在自然語言理解、語音處理、計算機(jī)視覺等領(lǐng)域的交叉應(yīng)用取得顯著進(jìn)展。

2022年，技術(shù)上的突出進(jìn)展來自于BEiT-3多模態(tài)基礎(chǔ)模型，該模型在視覺-語言任務(wù)處理上具備出色表現(xiàn)，包括視覺問答、圖片描述生成和跨模態(tài)檢索等。BEiT-3通過統(tǒng)一的模型框架和骨干網(wǎng)絡(luò)(backbone)建模，能夠更加輕松地完成多模態(tài)編碼和處理不同的下游任務(wù)。另一方面，CLIP(Contrastive Language-Image Pre-training)的廣泛應(yīng)用也促進(jìn)了多模態(tài)模型的技術(shù)發(fā)展。CLIP作為基于對比學(xué)習(xí)的預(yù)訓(xùn)練模型，負(fù)責(zé)從文本特征映射到圖像特征，能夠指導(dǎo)GAN或擴(kuò)散模型(diffusion model)生成圖像。在文生圖領(lǐng)域， Stable Diffusion也使用了CLIP，它能夠通過文本提示調(diào)整模型，并借助擴(kuò)散模型改善圖像質(zhì)量。

與此同時，開源極大促進(jìn)了多模態(tài)的融合和預(yù)訓(xùn)練模型的發(fā)展。通過開源來降低模型使用門檻，將大模型從一種新興的AI技術(shù)轉(zhuǎn)變?yōu)榉€(wěn)健的基礎(chǔ)設(shè)施，已成為許多大模型開發(fā)者的共識。

多模態(tài)預(yù)訓(xùn)練模型的發(fā)展將重塑人工智能商業(yè)模式，并為人們的生產(chǎn)生活方式帶來積極影響。對個人而言，類似CLIP的多模態(tài)模型，將使更多非技術(shù)出身的人能夠表達(dá)自己的創(chuàng)造力，無需再借助工具和編程專業(yè)能力。對企業(yè)來說，多模態(tài)預(yù)訓(xùn)練模型將成為企業(yè)生產(chǎn)效率提升的關(guān)鍵。商業(yè)模式上，具備大數(shù)據(jù)、算力資源和模型開發(fā)能力的科技企業(yè)，將會成為模型服務(wù)的提供方，幫助企業(yè)將基礎(chǔ)模型的能力與生產(chǎn)流程融合起來，實(shí)現(xiàn)效率和成本最優(yōu)。

認(rèn)知智能的發(fā)展，不會局限在文本或圖像等單一的模態(tài)上。未來，如何針對不同模態(tài)建立更高效的模型架構(gòu)和統(tǒng)一的骨干網(wǎng)絡(luò)，使得大模型能夠廣泛地支持各種下游任務(wù)將成為主要挑戰(zhàn)。在此基礎(chǔ)上，更多的挑戰(zhàn)來自于挖掘不同模態(tài)(如圖像-文本，文本-自然語言，視頻-文本)數(shù)據(jù)間的相關(guān)信息，并巧妙設(shè)計預(yù)訓(xùn)練任務(wù)，讓模型更好捕捉不同模態(tài)信息之間的關(guān)聯(lián)。

語音、視覺和多模態(tài)預(yù)訓(xùn)練模型將加速人工智能向通用基礎(chǔ)模型方向演進(jìn)。在這個過程中，深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相互促進(jìn)發(fā)展，融合大量行業(yè)知識，模型將具備在不斷變化的環(huán)境中快速適應(yīng)的靈活性。建立統(tǒng)一的、跨場景、多任務(wù)的多模態(tài)基礎(chǔ)模型會成為人工智能發(fā)展的主流趨勢之一。隨著技術(shù)的不斷成熟，大模型在開發(fā)成本、易用性、開發(fā)周期、性能上會更具優(yōu)勢，給產(chǎn)品化和商業(yè)化帶來更多可能性。

（達(dá)摩院）

標(biāo)簽：達(dá)摩院多模態(tài)預(yù)訓(xùn)練大模型

我要反饋

今年大會的主題是“智聯(lián)世界元生無界”，旨在充分把握人工智能與元宇宙相融互促的發(fā)展趨勢，連接匯聚世界人工智能最新觀點(diǎn)和成果，傳遞無界共生的創(chuàng)新理念，展現(xiàn)上海智能時代的美好圖... [詳情]

2023年01月18日世界人工智能大會 WAIC

探索全球化視野下的“人工智能與科學(xué)未來” 2022世界人工智能大會科學(xué)前沿全體會議圓滿舉辦

9月1日，2022年世界人工智能大會(WAIC)主論壇科學(xué)前沿全體會議在上海世博中心開幕。科學(xué)前沿全體會議由國家發(fā)展和改革委員會、工業(yè)和信息化部、科學(xué)技術(shù)部、國家互聯(lián)網(wǎng)辦公室、中國科... [詳情]

2023年01月18日世界人工智能大會 WAIC

達(dá)摩院牽頭推出AI模型社區(qū)魔搭ModelScope

導(dǎo)語：讓模型變成服務(wù)，ModelasaService。11月3日，2022云棲大會杭州現(xiàn)場，阿里達(dá)摩院聯(lián)手CCF開源發(fā)展委員會共同推出AI模型社區(qū)“魔搭”ModelScope，旨在降低AI的應(yīng)用門檻。達(dá)摩院率先... [詳情]

2023年01月18日 AI模型達(dá)摩院魔搭ModelScope