HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    教ChatGPT學(xué)會看圖的方法來了

    發(fā)布時間:2023-03-03 15:56:44     稿源: 互聯(lián)網(wǎng)    閱讀: 552        問大家

    羿閣 發(fā)自 凹非寺

    量子位 | 公眾號 QbitAI

    2022年流行“文生圖”模型,那2023年流行什么?

    機(jī)器學(xué)習(xí)工程師Daniel Bourke的答案是:反過來!

    這不,一個最新發(fā)布的“圖生文”模型在網(wǎng)上爆火,其優(yōu)秀的效果引發(fā)眾多網(wǎng)友紛紛轉(zhuǎn)發(fā)、點(diǎn)贊。

    教ChatGPT學(xué)會看圖的方法來了

    不僅是基礎(chǔ)的“看圖說話”功能,寫情詩、講解劇情、給圖片中對象設(shè)計(jì)對話等等,這個AI都拿捏得穩(wěn)穩(wěn)的!

    比如,當(dāng)你在網(wǎng)上刷到誘人的美食時,只需把圖片發(fā)給它,它就會立馬識別出需要的食材和做菜步驟:

    教ChatGPT學(xué)會看圖的方法來了

    甚至圖片中的一些列文虎克的細(xì)節(jié)也能“看”得清清楚楚。

    當(dāng)被問到如何才能從圖片中倒著的房子里離開,AI的回答是:側(cè)面不是有滑梯嘛!

    教ChatGPT學(xué)會看圖的方法來了

    這只新AI名為BLIP-2 (Bootstrapping Language-Image Pre-training 2),目前代碼已開源。

    最重要的是,和以前的研究不同,BLIP-2使用的是一種通用的預(yù)訓(xùn)練框架,因此可以任意對接自己的語言模型。

    有網(wǎng)友已經(jīng)在暢想把接口換成ChatGPT后的強(qiáng)強(qiáng)組合了。

    教ChatGPT學(xué)會看圖的方法來了

    作者之一Steven Hoi更是放話:BLIP-2未來就是“多模態(tài)版ChatGPT”。

    教ChatGPT學(xué)會看圖的方法來了

    那么,BLIP-2神奇的地方還有哪些?一起往下看。

    理解能力一流

    BLIP-2的玩法可以說非常多樣了。

    只需提供一張圖片,你就可以與它對話,讓它看圖講故事、推理、生成個性化文本等各種要求都能滿足。

    舉個例子,BLIP-2不僅能輕松識別圖片中的景點(diǎn)是長城,還能介紹出長城的歷史:

    中國的長城是公元前221年秦始皇為了保護(hù)帝都不受北方侵略而建造的。

    教ChatGPT學(xué)會看圖的方法來了

    給它一張電影劇照,BLIP-2不光知道出自哪,還知道故事的結(jié)局是be:泰坦尼克號沉沒,男主淹死。

    教ChatGPT學(xué)會看圖的方法來了

    在對人類神態(tài)的拿捏上,BLIP-2同樣把握得非常準(zhǔn)確。

    被問到這張圖片中的男人是什么表情,他為什么這樣時,BLIP-2的回答是:他害怕那只雞,因?yàn)樗w來。

    教ChatGPT學(xué)會看圖的方法來了

    更神奇的是,在許多開放性問題上,BLIP-2的表現(xiàn)也很出色。

    讓它根據(jù)下面的圖片寫一句浪漫的話:

    教ChatGPT學(xué)會看圖的方法來了

    它的回答是這樣的:愛情就像日落,很難預(yù)見它的到來,但當(dāng)它發(fā)生時,它是如此的美麗。

    教ChatGPT學(xué)會看圖的方法來了

    這不光理解能力滿分,文學(xué)造詣也相當(dāng)強(qiáng)??!

    教ChatGPT學(xué)會看圖的方法來了

    讓它給圖片中的兩只動物生成一段對話,BLIP-2也能輕松拿捏傲嬌貓貓x蠢萌狗狗的設(shè)定:

    貓: 嘿,狗狗,我能騎在你背上嗎?

    狗: 當(dāng)然,為什么不呢?

    貓: 我已經(jīng)厭倦了在雪地里行走。

    教ChatGPT學(xué)會看圖的方法來了

    那么,如此強(qiáng)大的理解能力背后,BLIP-2究竟是怎么做到的?

    多項(xiàng)視覺語言任務(wù)上實(shí)現(xiàn)新SOTA

    考慮到大規(guī)模模型的端到端訓(xùn)練成本越來越高,BLIP-2使用的是一種通用且高效的預(yù)訓(xùn)練策略:

    從現(xiàn)成的凍結(jié)預(yù)訓(xùn)練圖像編碼器和凍結(jié)的大型語言模型中引導(dǎo)視覺語言預(yù)訓(xùn)練。

    這也意味著,每個人都可以選擇自己想用的模型接入使用。

    而為了彌補(bǔ)了模態(tài)之間的差距,研究者提出了一個輕量級的查詢Transformer。

    該Transformer分兩個階段進(jìn)行預(yù)訓(xùn)練:

    第一階段從凍結(jié)圖像編碼器引導(dǎo)視覺語言表示學(xué)習(xí),第二階段將視覺從凍結(jié)的語言模型引導(dǎo)到語言生成學(xué)習(xí)。

    教ChatGPT學(xué)會看圖的方法來了

    為了測試BLIP-2的性能,研究人員分別從零樣本圖像-文本生成、視覺問答、圖像-文本檢索、圖像字幕任務(wù)上對其進(jìn)行了評估。

    最終結(jié)果顯示,BLIP-2在多項(xiàng)視覺語言任務(wù)上都實(shí)現(xiàn)了SOTA。

    教ChatGPT學(xué)會看圖的方法來了

    其中,BLIP-2在zero-shot VQAv2上比Flamingo 80B高8.7%,且訓(xùn)練參數(shù)還減少了54倍。

    而且顯而易見的是,更強(qiáng)的圖像編碼器或更強(qiáng)的語言模型都會產(chǎn)生更好的性能。

    教ChatGPT學(xué)會看圖的方法來了

    值得一提的是,研究者在論文最后也提到,BLIP-2還存在一個不足,那就是缺乏上下文學(xué)習(xí)能力:

    每個樣本只包含一個圖像-文本對,目前還無法學(xué)習(xí)單個序列中多個圖像-文本對之間的相關(guān)性。

    研究團(tuán)隊(duì)

    BLIP-2的研究團(tuán)隊(duì)來自Salesforce Research。

    教ChatGPT學(xué)會看圖的方法來了

    第一作者為Junnan Li,他也是一年前推出的BLIP的一作。

    目前是Salesforce亞洲研究院高級研究科學(xué)家。本科畢業(yè)于香港大學(xué),博士畢業(yè)于新加坡國立大學(xué)。

    研究領(lǐng)域很廣泛,包括自我監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)、視覺-語言。

    以下是BLIP-2的論文鏈接和GitHub鏈接,感興趣的小伙伴們可以自取~

    論文鏈接:https://arxiv.org/pdf/2301.12597.pdf

    GitHub鏈接:https://github.com/salesforce/LAVIS/tree/main/projects/blip2

    參考鏈接:[1]https://twitter.com/mrdbourke/status/1620353263651688448[2]https://twitter.com/LiJunnan0409/status/1620259379223343107

    — 完 —

    量子位 QbitAI · 頭條號簽約

    關(guān)注我們,第一時間獲知前沿科技動態(tài)


    推薦閱讀:

    教ChatGPT學(xué)會看圖的方法來了

    小紅書如何投放(小紅書投放策略)

    餐飲營銷策劃方案(餐飲營銷策劃方案怎么做)