編者按:這篇文章是來自斯坦福的年輕教授 Maneesh Agrawala,他本人既是斯坦福計算機專業(yè)的教授,也是斯坦福大學(xué)布朗媒體創(chuàng)新研究所的所長。他在去年 HAI 2022 秋季會議上發(fā)布了演講「AI回路:演進中的人類」,而這篇文章正是演講內(nèi)容修訂后的版本。對于 AIGC 當(dāng)下存在的深層問題,AI 的邏輯以及未來可能的改進方式,給出了詳盡的解讀和預(yù)測。以下是正文:
最近我決定更新一下我的個人網(wǎng)站的圖片資料:

作為一名計算機專業(yè)的教授,我覺得現(xiàn)在制作一張高質(zhì)量照片,最簡單的方法,就是使用 DALL-E2 來生成。所以我寫了一個簡單的 prompt:「Picture of a Professor named Maneesh Agrawala」,然后 DALL-E2 給我生成了……額……這張照片:

根據(jù)我文本提示,它生成了一張看起來有著明顯印度裔特征的男性,給他穿上了看起來「專業(yè)」的服裝,并且把場景設(shè)置在一個學(xué)術(shù)研究室當(dāng)中。從整體上來看,物體、燈光、陰影和色彩都是連貫的,是單一且統(tǒng)一的照片。我對于 AI 生成的照片總體上是不會吹毛求疵的,不過手看起來比較奇怪,有一邊眼鏡腿沒了,當(dāng)然,從我更人需求的角度出發(fā),我很希望它生成這個角色看起來年輕一點。
總體上來看,AI 能夠生成如此之逼真的照片確實是令人驚艷的,這是人類歷史上從未有過的數(shù)字超能力。
AI 能生成的不止是圖片內(nèi)容。先走的生成式 AI 對于用戶而言,是一個巨大的黑箱。將自然語言作為輸入內(nèi)容,AI 能夠生成素質(zhì)驚人的文本內(nèi)容(GPT4,ChatGPT),圖片內(nèi)容(DALL-E2、Stable Diffusion、Midjourney),視頻內(nèi)容(Make-a-Video),3D 模型(DreamFusion)甚至程序代碼(Copilot , Codex )。


那么這次我們使用 DALL-E2 重新生成一張照片看看吧。這次, 我想看看如果斯坦福以《銀翼殺手》的風(fēng)格呈現(xiàn)出來的時候,會是什么樣子。斯坦福最典型的建筑就它的主廣場,中間是被棕櫚樹包圍的紀(jì)念教堂,而談及《銀翼殺手》的時候,我能想到的是霓虹燈,擁擠的夜市,連綿的雨水和大排檔。所以我撰寫了 prompt:「stanford memorial church with neon signage in the style of bladerunner」。

在第一次迭代的時候,生成的圖片并沒有呈現(xiàn)主廣場和棕櫚樹,所以我將「And main quad」添加到第二輪的 prompt 當(dāng)中,在第三輪迭代中,我加入了「with palm tree」,生成的圖像越來越像斯坦福的主廣場,但是和《銀翼殺手》的夜景沒有啥關(guān)系。我開始周期性地修改 prompt,嘗試找到更合適的 prompt,以產(chǎn)出我想要的圖片內(nèi)容。在第 21 次迭代之后,我在 DALL-E2 耗費了好幾個小時,我決定在此止步。

實際上,最終生成的圖片依然不符合我的預(yù)期。更糟糕的是,我不清楚如何更改 prompt 以確保 AI 生成的內(nèi)容能夠進一步靠近我的想法。
這個過程令人沮喪。(這大概才是絕大多數(shù) AIGC 內(nèi)容產(chǎn)出的真實情況吧?)
事實上,尋求有效的 prompt 是如此之艱難,以至于現(xiàn)在誕生了專門的論壇(比如 PromptHero、Arthub.ai、Reddit/StableDiffusion)來搜集和分享各種 prompt,甚至還誕生了專門買賣 prompt 的市場(promptbase),還誕生了大量的關(guān)于 prompt 的研究性的論文。
要理解為什么寫出有效的 prompt 很困難,我認(rèn)為唐納德諾曼的《設(shè)計心理學(xué)》當(dāng)中提及的一件軼事非常具有啟發(fā)意義。這個故事說的是他自己擁有一個冰箱,而冰箱內(nèi)設(shè)置溫度的功能極度難用,因為它的溫控大概是這樣的:

這個冰箱有著典型的冷凍室和冷藏室,它的兩套設(shè)溫控設(shè)施讓人覺得兩者有著獨立的控制系統(tǒng),實際上這個冰箱僅有一個冷卻裝置,而控制兩者溫度主要依靠一個閥門,來分配兩者所用的冷氣。這也意味著,原本的控制功能已經(jīng)很難理解很難用了,而實際上的體系比我們看到的更加復(fù)雜,使用一個你看不到的閥門來耦合控制。

使用不正確的概念模型,用戶不僅無法預(yù)測輸入的數(shù)值,也無法掌控輸出的效果。實際在操作的時候,用戶需要操控 (i) 設(shè)置控件進行調(diào)整,然后(ii)等待 24 小時等到溫度穩(wěn)定下來,并且 (iii) 檢查最終的溫度是否符合他們的預(yù)期,如果結(jié)果穩(wěn)定且符合預(yù)期還好說,如果不符合,需要返回步驟 (i) 。這種操作帶來的沮喪感,其實和當(dāng)前 AI 給人的感覺類似。
對我來說,這件事情給我的主要啟示有 2 點:
- 設(shè)計良好的界面能夠給用戶創(chuàng)建一個正確的概念模型,可以大體預(yù)測輸入內(nèi)容是如何控制輸出內(nèi)容的。
- 當(dāng)概念模型不課預(yù)測的時候,用戶就會被迫使用試錯的方法。
UI 設(shè)計師的工作之一,就是創(chuàng)建一個用戶可預(yù)測的概念模型。
生成式 AI 的黑盒狀態(tài),其實是最糟糕的界面,因為它們還無法給用戶提供可預(yù)測的概念模型,目前絕大多數(shù)人都不清楚 AI 是如何將自然語言 prompt 轉(zhuǎn)化為最終的輸出結(jié)果,即使是 AI 的設(shè)計者通常也無法確知,怎樣去構(gòu)建一個讓用戶可以理解和預(yù)測的概念模型,來幫助用戶更好輸出內(nèi)容。
現(xiàn)在回到 DALL-E2 ,我試著使用「Picture of a cool, young Computer Science Professor named Maneesh Agrawala」來讓它為我創(chuàng)建一個更好的照片:

很多時候我確實不知道 prompt 是如何影響圖片的,比如我使用「Cool」這個詞,它映射到圖片當(dāng)中的特征是運動外套和 T恤的組合,還是年輕的面容?而「Computer Science」 是否意味著 DALL-E3 需要輸出寫實的圖片而非插畫?沒有邏輯順暢的預(yù)測概念模型,我也不知道答案是什么。我唯一能做的和大家一樣,就是不停輸入和修改 prompt 來等待結(jié)果。
AI 的目標(biāo)之一,是像人一樣創(chuàng)造。你可能會說,自然語言是人和人進行溝通的語言,顯然人是更好的 UI,這一點我不完全同意。人類本身也是產(chǎn)出垃圾內(nèi)容的 UI。人類的可怕之處和 AI 黑箱的缺陷是完全相同的。當(dāng)我們面對另外一個人的時候,我們其實面對著同樣的問題,我們通常很難準(zhǔn)確預(yù)測對方回復(fù)你的語言是什么。

就目前而言,人類比起 AI 黑箱更優(yōu),這主要有兩方面的原因。
首先,身為人類的我們,在預(yù)測人類合作方的「行為模式」的時候,是根據(jù)自身響應(yīng)需求的方式來預(yù)測的,也就是「以己度人」。我們對于行為模式和概念模型,有很強的先驗性,因為我們會假設(shè)對方和我們一樣。
其次,根據(jù) Herb Clark 等語言學(xué)家所指出的,我們可以和人類合作方通過交談,來構(gòu)建共識,共享相同的語義。我們可以在語言溝通中,逐步消除歧義和誤解,并且完善和調(diào)整策略。
共同性、語義共享和修復(fù)策略是人類協(xié)作的基礎(chǔ)。
盡管人類之間擁有這樣的優(yōu)勢,和另一個人想要形成高質(zhì)量的協(xié)作,依然需要通過多次迭代才能完成。最有效的合作通常需要數(shù)周、數(shù)月乃至于數(shù)年的對話,才能建立起共同點(想想婚姻關(guān)系吧)。
正如我所說的,人類是可怕的 UI,但是依然是比 AI 黑箱更好的 UI。
那么我們要如何才能創(chuàng)建出更好的 AI 工具呢?有一種方法是支持對話式的交互。ChatGPT 等文本生成式工具,已經(jīng)開始這么做了。這些工具開始支持多輪對話,可以是作為未來人與 AI 進行有效溝通的基礎(chǔ)。上下文環(huán)境讓 AI 和用戶都可以參考之前對話中內(nèi)容的概念,以此為基礎(chǔ)達成共識。不過不清楚目前的 AI 系統(tǒng)包含有多少常識,AI 對語義概念的理解似乎還有所不足。但是人類用戶而言,ChatGPT 到底懂得多少其實是不確知的,因此對話通常需要進行多輪來回,雙方才能構(gòu)建起基本的共識。此外,AI 和用戶對話本身并不會直接更新 AI 本身的模型,為這些模型增加常識、基礎(chǔ)概念、推理能力,依然是目前 AI 研究的主要推動力。

Prompt-to-Prompt image editing [Hertz 2022]
自然語言通常是模棱兩可的。人類通過對話,來逐步消減歧義,確保大家在討論的是同一件事情。有研究人員已開始將這種修復(fù)機制應(yīng)用到文本生成圖片的 AI 系統(tǒng)當(dāng)中,比如 Prompt-to-Prompt image editing [Hertz 2022] , 用戶可以先用 prompt 生成圖片,然后優(yōu)化 prompt 生成新的圖片,這個過程中只需要進行微小的調(diào)整即可,上圖中,通過添加額外的關(guān)鍵詞,生成了更加準(zhǔn)確的內(nèi)容。這本身就是一種改進的方式。

減少自然語言歧義的另外一種方法,是讓用戶添加約束條件。圖到圖轉(zhuǎn)化 (Image-to-image translation [Isola 2016])就是一種典型的約束方式,通過機器學(xué)習(xí)生成對抗網(wǎng)絡(luò)(GAN),在這種環(huán)境下,當(dāng)你輸入一種類型的圖像(比如標(biāo)簽圖、輪廓圖),就能生成另外一類圖像(比如照片或者地圖),輸入的圖像會約束輸入圖像的特征。這樣的約束方式比起用戶模糊的語言描述會顯得更強,提供了更加精確的空間特征。如今我們手底下很多小組在文本轉(zhuǎn)圖像的 AI 交互中,使用了這種方式來強化上下文環(huán)境。

對話式交互能超越自然語言單一命令。在文本轉(zhuǎn)圖像的 AI 模型研究中,很多 AI 研究者已經(jīng)開始研究「建立共識」的方法。Textual Inversion [Gal 2022] 和 DreamBooth [Ruiz 2022] 都會讓用戶提供示例圖,AI 模型則會將文本 prompt 和這些圖像示例關(guān)聯(lián)起來,這樣用戶和 AI 會建立某種共通的信息基礎(chǔ)。

而「神經(jīng)符號法」則提供了另外一種創(chuàng)建 AI 模型對話界面的圖形。一個 AI 模型不是直接生成內(nèi)容,而是生成某種程序,只有運行了這種程序才能生成內(nèi)容,這種程序在某種程度上就是 「共識」本身,它是人類和 AI 可以以相同方式理解的東西,而這就是將編程語言語義形式化的基礎(chǔ)。這意味著,即使沒有明確的語義,開發(fā)者依然可以通過檢測代碼內(nèi)容來確定 AI 是否在做「正確的事情」。這個時候,開發(fā)者可以在編程語言層面上給 AI 提供修復(fù)建議,而不是簡單的使用自然命令。
AIGC 的模型是令人驚嘆的,但是它依然是糟糕的界面,只要輸入和輸出之間的映射不明確,它就一直是個問題。我們可以啟用對話式交互來改進 AI,創(chuàng)建更多的「共識」。
復(fù)制本文鏈接 文章為作者獨立觀點不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。




發(fā)評論!每天贏獎品
點擊 登錄 后,在評論區(qū)留言,系統(tǒng)會隨機派送獎品
2012年成立至今,是國內(nèi)備受歡迎的設(shè)計師平臺,提供獎品贊助 聯(lián)系我們
MJ+SD智能設(shè)計
已累計誕生 772 位幸運星
發(fā)表評論 為下方 3 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓