2003年,身在加拿大的科學(xué)家約書亞·本吉奧(Yoshua Bengio)提出了一種新的算法理念,他將這稱之為神經(jīng)網(wǎng)絡(luò)語言模型——Nerual Network Language Models。整整十年后的2013年,Google提出了基于神經(jīng)網(wǎng)絡(luò)的語言模型Word2Vec,這也在隨后作為很多自然語言處理領(lǐng)域的重要初始化輸入,得到很大的應(yīng)用。
又過了整整十年,預(yù)訓(xùn)練模型已經(jīng)獲得了快速發(fā)展,從而展現(xiàn)出了巨大的技術(shù)魅力。目前,人工智能正在從文本、語音、視覺等單模態(tài)智能,向著多種模態(tài)融合的通用人工智能方向發(fā)展。多模態(tài)統(tǒng)一建模,目的是增強(qiáng)模型的跨模態(tài)語義對齊能力,打通各個模態(tài)之間的關(guān)系,使得模型逐步標(biāo)準(zhǔn)化。
目前,技術(shù)的突出進(jìn)展來自CLIP(匹配圖像和文本)和BEiT-3(通用多模態(tài)基礎(chǔ)模型)?;诙囝I(lǐng)域知識構(gòu)建統(tǒng)一、跨場景、多任務(wù)的多模態(tài)基礎(chǔ)模型,已成為人工智能重點(diǎn)方向。未來,大模型作為基礎(chǔ)設(shè)施,將實(shí)現(xiàn)圖像、文本、音頻統(tǒng)一知識表示,并朝著能推理、能回答問題、能總結(jié)、做創(chuàng)作的認(rèn)知智能方向演進(jìn)。
趨勢解讀
基于深度學(xué)習(xí)的多模態(tài)預(yù)訓(xùn)練是認(rèn)知智能快速發(fā)展的重要推動力。構(gòu)建多場景、多任務(wù)的預(yù)訓(xùn)練大模型將加速模型標(biāo)準(zhǔn)化進(jìn)程,為人工智能模型成為基礎(chǔ)設(shè)施創(chuàng)造條件。深度學(xué)習(xí)模型的不斷完善、互聯(lián)網(wǎng)海量真實(shí)數(shù)據(jù)的積累和生成式預(yù)訓(xùn)練的廣泛應(yīng)用,使得人工智能模型在自然語言理解、語音處理、計算機(jī)視覺等領(lǐng)域的交叉應(yīng)用取得顯著進(jìn)展。
2022年,技術(shù)上的突出進(jìn)展來自于BEiT-3多模態(tài)基礎(chǔ)模型,該模型在視覺-語言任務(wù)處理上具備出色表現(xiàn),包括視覺問答、圖片描述生成和跨模態(tài)檢索等。BEiT-3通過統(tǒng)一的模型框架和骨干網(wǎng)絡(luò)(backbone)建模,能夠更加輕松地完成多模態(tài)編碼和處理不同的下游任務(wù)。另一方面,CLIP(Contrastive Language-Image Pre-training)的廣泛應(yīng)用也促進(jìn)了多模態(tài)模型的技術(shù)發(fā)展。CLIP作為基于對比學(xué)習(xí)的預(yù)訓(xùn)練模型,負(fù)責(zé)從文本特征映射到圖像特征,能夠指導(dǎo)GAN或擴(kuò)散模型(diffusion model)生成圖像。在文生圖領(lǐng)域, Stable Diffusion也使用了CLIP,它能夠通過文本提示調(diào)整模型,并借助擴(kuò)散模型改善圖像質(zhì)量。
與此同時,開源極大促進(jìn)了多模態(tài)的融合和預(yù)訓(xùn)練模型的發(fā)展。通過開源來降低模型使用門檻,將大模型從一種新興的AI技術(shù)轉(zhuǎn)變?yōu)榉€(wěn)健的基礎(chǔ)設(shè)施,已成為許多大模型開發(fā)者的共識。
多模態(tài)預(yù)訓(xùn)練模型的發(fā)展將重塑人工智能商業(yè)模式,并為人們的生產(chǎn)生活方式帶來積極影響。對個人而言,類似CLIP的多模態(tài)模型,將使更多非技術(shù)出身的人能夠表達(dá)自己的創(chuàng)造力,無需再借助工具和編程專業(yè)能力。對企業(yè)來說,多模態(tài)預(yù)訓(xùn)練模型將成為企業(yè)生產(chǎn)效率提升的關(guān)鍵。商業(yè)模式上,具備大數(shù)據(jù)、算力資源和模型開發(fā)能力的科技企業(yè),將會成為模型服務(wù)的提供方,幫助企業(yè)將基礎(chǔ)模型的能力與生產(chǎn)流程融合起來,實(shí)現(xiàn)效率和成本最優(yōu)。
認(rèn)知智能的發(fā)展,不會局限在文本或圖像等單一的模態(tài)上。未來,如何針對不同模態(tài)建立更高效的模型架構(gòu)和統(tǒng)一的骨干網(wǎng)絡(luò),使得大模型能夠廣泛地支持各種下游任務(wù)將成為主要挑戰(zhàn)。在此基礎(chǔ)上,更多的挑戰(zhàn)來自于挖掘不同模態(tài)(如圖像-文本,文本-自然語言,視頻-文本)數(shù)據(jù)間的相關(guān)信息,并巧妙設(shè)計預(yù)訓(xùn)練任務(wù),讓模型更好捕捉不同模態(tài)信息之間的關(guān)聯(lián)。
語音、視覺和多模態(tài)預(yù)訓(xùn)練模型將加速人工智能向通用基礎(chǔ)模型方向演進(jìn)。在這個過程中,深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相互促進(jìn)發(fā)展,融合大量行業(yè)知識,模型將具備在不斷變化的環(huán)境中快速適應(yīng)的靈活性。建立統(tǒng)一的、跨場景、多任務(wù)的多模態(tài)基礎(chǔ)模型會成為人工智能發(fā)展的主流趨勢之一。隨著技術(shù)的不斷成熟,大模型在開發(fā)成本、易用性、開發(fā)周期、性能上會更具優(yōu)勢,給產(chǎn)品化和商業(yè)化帶來更多可能性。
(達(dá)摩院)