(資料圖片)
OpenAI為其文本到圖像的人工智能模型DALL-E增加了一個(gè)新的 "outpointing "功能,讓該系統(tǒng)產(chǎn)生新的視覺(jué)效果,擴(kuò)大任何給定圖片的邊界。
在上面的例子中,你可以看到DALL-E如何在人類提示的幫助下,"想象 "出約翰內(nèi)斯-維米爾的肖像畫 "戴珍珠耳環(huán)的女孩 "的框架外的東西。請(qǐng)注意,即使從畫像提供的有限信息來(lái)看,該系統(tǒng)也能與維米爾的風(fēng)格相匹配,模仿出原作的陰影和高光。
在下面的時(shí)間推移中,你還可以看到負(fù)責(zé)的藝術(shù)家?jiàn)W古斯特-坎普是如何每次都要在小范圍內(nèi)擴(kuò)展圖像,為了得到她想要的結(jié)果,經(jīng)常重做DALL-E的幾代。在這段視頻中沒(méi)有看到,但絕對(duì)值得強(qiáng)調(diào)的是,該系統(tǒng)并不只是自己生成這些擴(kuò)展的事實(shí)。與所有文本到圖像的人工智能一樣,該模型需要人類來(lái)描述新的視覺(jué)效果。
Outpainting作為一個(gè)功能可以用來(lái)擴(kuò)展原始內(nèi)容,當(dāng)然,許多DALL-E用戶已經(jīng)在玩這個(gè)功能,看看著名圖像的框架之外有什么。(向下滾動(dòng)到底部看我絕對(duì)喜歡的例子...)
從更廣泛的角度來(lái)看,畫外音并沒(méi)有真正擴(kuò)大文本-圖像人工智能系統(tǒng)的基本功能,但它確實(shí)顯示了OpenAI將如何在這些系統(tǒng)不斷增長(zhǎng)的市場(chǎng)中定位自己:通過(guò)使可用性成為對(duì)客戶的關(guān)鍵宣傳。
許多文本到圖像的人工智能模型可以執(zhí)行相同的基本功能,但就像這次更新之前的DALL-E本身一樣,它需要相當(dāng)多的手工擺弄。盡可能地使外繪變得簡(jiǎn)單,將有助于DALL-E從Midjourney和Stable Diffusion等規(guī)模較小但具有可比性的系統(tǒng)日益激烈的競(jìng)爭(zhēng)中脫穎而出。
DALL-E本身現(xiàn)在可以通過(guò)一個(gè)測(cè)試項(xiàng)目使用,目前有超過(guò)一百萬(wàn)的用戶可以使用。每個(gè)測(cè)試版用戶在第一個(gè)月可以獲得50個(gè)免費(fèi)的圖像世代,之后每個(gè)月可以額外使用15個(gè)。然后他們可以花15美元購(gòu)買115個(gè)額外的圖像世代。
不過(guò),在此期間,畫外音可以用來(lái)回答生活中的一些最大的謎團(tuán),比如,"如果貴格燕麥的人是一個(gè)胸大無(wú)腦的酒吧女郎呢?" 不要再想了。