
在Google的Banana發布下。
OpenAI憋了很久之后,終于把他們的圖片生成模型給掏出來了。

看一下他們的宣傳視頻。
突然想起了今年3月26號的時候,OpenAI第一次掏出GPT-4o的生圖模型,也就是GPT Image 1.0,然后同天,Google發布了Gemini 2.5 Pro,事后看,Gemini 2.5 Pro肯定是一個偉大的模型。
但是那一天的時候,在整個X上、各種群里,大家討論的全部是GPT-4o。
那時候,我們說,1.5 Pro被Sora淹,2.5 Pro被4o淹。
結果半年過去,風水輪流轉,現在屬于OpenAI天天被Google摁在地上打。。。
所以這一次,不是傳聞中的GPT Image 2.0,跟Nano Banana Pro一樣,用了一個小版本號去升級,用了1.5。
有一種感覺,就是怕被Google打臉。。。
半年前,OpenAI意氣風發,誰能想到,如今是這樣的結局。
跟隨著新模型的上線,ChatGPT上,也上了一個全新的圖像界面。

點開以后,是這個樣子的。就是這個粉粉的背景色,放在深色模式下,真的不好看。

OpenAI其實明顯感覺到,在C端體驗上,做的確實還是比Google更上心,把風格和部分的快捷指令,單獨拎了出來。
比如我們選中這個糖曲奇風格。

在點擊以后,會彈出一個彈窗,讓你選擇最近你發給ChatGPT的圖片,或者上傳一個圖片。

我就傳了我的那個AI固定模特染夏,就是那個粉頭發的妹子。

然后,他真的,就把我的圖片,和這一段默認的Prompt,直接以對話的形式,發給了ChatGPT。
說實話,這個交互設計的體驗真的并不是很好,各個界面跳來跳去,非常混亂。。。
不過生成的速度確實比之前有提升,測了一下,在ChatGPT上,大概40s到1分鐘不等。
在這個時間之后,你就能得到一個,糖曲奇風格的小圖了。

當然,還有毛絨玩具風格的。

除了快速轉風格之外,也有一些快捷的操作預設。
比如創建專業產品照片、拍攝專業求職照片等等。

交互也都是一樣的,點開以后,傳圖,選擇。
比如,給染夏做一張,專業求職照片。

做出來的效果,確實也挺真誠。

也可以,直接用模板,變成名畫。

就是這個臉部,缺失了一些筆觸的風格,變得過于平整了。
而模型本體能力上,在我測了一夜之后,還是發現有些比較可圈可點比較好玩的地方。
這次,我想用多個跟Nano Banana Pro直接對比的案例,讓大家直觀的感受一下,他的特點和邊界,以及跟Nano Banana Pro孰強孰弱。
文字準確性,絕對是現在的多模態AI繪圖模型,大家最為關注的。
所以,我們首先開始,肯定先看這個。
Prompt:生成一張桌面月歷照片,標題必須逐字 "2026年2月",下方是標準7列表格(日一二三四五六)并填入日期1–28,要求網格對齊、數字清晰,除標題與日期外不加其他字。

左邊是GPT Image 1.5,右邊是Banana Pro。
上來第一個case,GPT就拉了坨大的,我要求是只寫到28,Banana精準的執行了任務,所有的數字都是對的,但是GPT在寫到28后沒有停止,又重復了一個28,然后寫了29和31,這就是完全的錯誤了。
Prompt(來自@卡爾的AI沃茨):生成一張3:4的圖片,畫面上方用書法寫著一首完整的《茅屋秋風所破歌》,內容是【完整全文】,每個字上方都要標注上漢語拼音,同時畫面內容主要用水墨畫的形式展示這首詩所表達的情景。

兩邊各有各的拉,GPT你完全不知道他在寫個啥,中文完全崩成了一坨跟鬼畫符一樣。右邊中文倒是寫的很不錯,只有個別字拉了,但是不知道為什么Prompt要求的是上面掛拼音,寫著寫著就腦袋頂上就掛了個中文字?而且排版確實不好看。
Prompt:為我生成蘇繡工藝的詳細解說圖,配上詳細的中文知識解析。

GPT的中文字翻車比較狠,而且信息圖的展示沒有Banana清晰,有很多無關內容硬生生的塞進去了。
Prompt:這個模特的Instagram動態界面,3:4。
這里我是把染夏的照片扔過去了。

GPT完全沒有畫出Instagram上任何信息,emoji還畫錯了,Banana對界面的理解畫的非常的精準,雖然人物一致性上有很多問題,但是在信息準確性上,還是要強出好幾個檔次。
綜合來看,在信息準確性上,GPT Image 1.5,確實是不如Banana Pro,而在中文字上,有非常明顯的差距,Banana Pro的中文字還是很穩的。
這一趴,來看直接生成的照片質感,看看誰的效果更加的真實。
Prompt:年輕白皙膚色的年輕女性肖像照:皮膚帶自然紅暈、鼻子與臉頰無雀斑。短款灰褐色波波頭,中分層次,幾縷松散發絲垂在臉側;淺棕色眼睛、卷曲睫毛、飽滿有光澤的粉色嘴唇,鼻中隔穿刺。表情俏皮淘氣:眨一只眼、吐舌頭、可愛搞怪。保留她皮膚/面部/手部可見的原始紋身細節。她隨意坐在吧臺凳上,穿黑色背心,外搭淺藍/白/黑格紋法蘭絨襯衫(敞開或披著),下穿牛仔迷你裙,系小黑色腰帶。左手自然下垂,手里夾著一支點燃的香煙。場景為昏暗的戶外或半戶外酒吧/酒館/夜店:石質或金屬質感的圓桌與吧凳;桌上有一只裝滿飲料的玻璃杯、一個玻璃水壺、以及一包香煙(Gudang Garam Surya 16)。背景虛化,隱約可見坐著的人與夜晚氛圍燈光。拍攝為高角度俯拍(從上往下看主體),強烈直射閃光燈,人物后方產生銳利陰影,皮膚明亮略微過曝。整體風格:隨手快照、Y2K 美學、街頭風、垃圾搖滾、閃光攝影。3:4,真實膠片質感、輕微噪點、淺景深。

語義理解這兩家確實都很強,提到的所有元素幾乎全部實現了,在質感上,GPT的圖會更加AI更加油膩一些,Banana Pro會更真實一點。
Prompt:生成一張照片級抓拍:一位年邁水手站在小漁船上整理漁網,旁邊有一只狗安靜坐著。要求可見真實皮膚紋理(皺紋、毛孔、日曬痕)、衣物磨損與鹽漬;自然海邊日光。鏡頭語言:50mm,中近景,平視,淺景深,輕微膠片顆粒;不擺拍、不精修;3:4。

這兩家基本打個平手,但是GPT的飽和度和對比度總是更強一些,Banana Pro會更日常一些。
Prompt:生成一張照片級真實抓拍:演出后臺化妝間。 場景: 一排帶燈泡的化妝鏡,桌面有散亂的化妝刷、發夾、水杯、紙巾; 光源為鏡前燈泡(暖)+室內頂燈(中性),混合光真實。 主體: 至少6位演員/工作人員: 前景:一位坐著化妝,化妝師在旁邊補妝(手部動作清楚); 中景:兩位在整理衣服與耳返; 鏡子里必須能看到與現實一致的反射(人數、姿態、位置匹配,不能憑空多出人或少人)。 攝影參數/構圖: 50mm,f/1.8,1/160s,ISO 2500;中近景;淺景深。

GPT還是那個問題,對比度和飽和度都有點高,整體色彩會看著有一點AI感,整體上,我個人還是喜歡Banana Pro的質感一些。更為自然。
測一下用嘴改圖的能力,這次GPT不是說,自己的精準編輯能力更強了嗎。
第一個case就是換內容。
比較簡單。
比如,把這個發布會的奧特曼,替換成染夏。

效果是這樣的。

從光影感覺,人物比例和透視,Banana Pro更勝一籌,第一個的燃夏身上的衣服的光影明顯就不對,然后明明是個圓桌,染夏是更靠近鏡頭的,所以肯定會顯得大一點,原來的奧特曼也是這樣,這就是最基本的近大遠小。
但是GPT做的圖,你會發現,染夏跟中間的老哥直接平齊了,沒有前后關系了。
然后就是更復雜一點的,跨畫風做替換,還替換天氣。

圖1的人物的衣服替換成圖2角色的衣服,其他不變。天氣變成小雨,3:4。

這時候,兩邊的處理差距就挺大了。

雖然Banana的人臉保持也有一點問題,不太像了,但是整體肯定是比GPT要好的,我只替換服裝,然后下雨,沒讓你把畫風和色調也遷移過去啊。
還有換衣服。比如我想給染夏的這張照片,換一些別的服裝。

結果是這樣。

GPT直接把我衣服改了,變成了還有一件內搭,這個肯定不對的,Banana Pro是正確的。
還有一個@-Zho-佬的Prompt,就是讓3個角色,用夸張的造型合影。
我找了3個角色。

Prompt:三人在 鏡前 頂視角 擺出夸張姿勢合影。

有一說一,這張整體的構圖和感覺,我覺得GPT更好一點,GPT只丟了鏡前這一個信息,但是Banan Pro丟了頂視角和鏡前兩個信息,而且姿勢也沒那么夸張。
綜合來看,我覺得整體上,還是Banana在一致性、精準度上,還是會更甚一籌。
我最喜歡的一個案例,就還是海賊王排名。

這塊從設計角度來說,確實左邊的GPT會更有張力,包括風格上,也更好看,戰力的排序我就不多說了,這個見仁見智,但是就是有一個非常明顯的知識錯誤,就是第十名,紅犬庫贊是什么鬼???
人叫赤犬,真名叫薩卡斯基。庫贊是青雉。。。這就是完全的錯誤了。
右邊目前看著沒啥硬傷,頭像都能對得上。
還有一個@卡爾的AI沃茨的Prompt,也很有意思:
用一組圖,描繪公元前260年5月至10月之間,東經112°41到113°09′,,北緯35°39′到35°59′ 發生的事情,并給出詳細的信息圖,圖上要用中文說明發生了什么事情,以及結果的重要信息。

這個地方呢,讓GPT-5.2自己來判斷一下。
它自己說:

我選Banana Pro。。。
不過坦率的講,差距并不大,至少不會有錯誤。
還有一個非常搞的。
Prompt:創建一個包含以下內容的正方形圖像:一只手有七根手指,一面顯示時間為8:22的掛鐘,一杯裝滿紅酒的玻璃杯。

這塊是讓我非常驚喜的,GPT Image 1.5把時間畫對了,除了那個時針應該在上去一點,分針是正確的,然后7根手指,畫成了6根手指。
而Banana Pro,在這地方就翻了個大車,手和時鐘全部失敗了。
所以,在世界知識這塊,我覺得還是比較能打個平手的,各有勝負。
花了一個通宵的時間,把GPT Image 1.5測了個大概。
不算差,但是肯定也不能說是特別好,跟Banana Pro比,在很多地方,還是有一些不足的。
而且自從3月份發布,OpenAI憋了半年,才憋出來個這個。
而Google,最恐怖的是,Gemini 2.5的畫圖,花了3個月進化到了Banana,Banana又花了3個月,進化成了Banana Pro。
這家公司的進化速度,還是太恐怖了。
Google,不愧是現如今,AI的王。
這次,該輪到OpenAI,奮起直追了。
復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。




發評論!每天贏獎品
點擊 登錄 后,在評論區留言,系統會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們
MJ+SD智能設計
已累計誕生 771 位幸運星
發表評論 為下方 6 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓