【Google 承認啦】爆紅 AI 圖像模型 nano-banana 亮點揭曉!OpenAI 要緊張了?
最近幾週,一款名為「nano-banana(奈米香蕉)」的神祕 AI 圖像模型在社群爆紅,因為使用者認為它實在太好用了。這款模型最初出現在群眾 AI 基準測試網站 LMArena,引發愛好者不斷猜測其開發者身份,如今答案終於揭曉。
Google 在官方部落格以「Nano Banana!Gemini 圖像編輯功能全新」為題發文,證實奈米香蕉其實是他們的產品,為全新 AI 模型 Gemini 2.5 Flash Image 的研究預覽版。該模型已於美國時間 8 月 26 日推出,主打讓用戶能更精細控制圖片編輯,明顯是為了追趕競爭對手 OpenAI。
Google 新圖像模型 4 大亮點,外媒實測稱效果驚人
Google 的全新 AI 圖像模型 Gemini 2.5 Flash Image 有 4 大特色。第一,可將多張圖片合成一幅圖像,創造全新場景。例如上傳使用者和狗的照片,即可生成兩者在籃球場上的合照;或上傳家具和室內照片,模擬裝潢或商品擺設效果。《Inc》指出,不難想像人們將使用此功能來查看新電器或家具在家中的效果,輔助購買決策。
第二,Gemini 2.5 Flash Image 可以根據使用者的自然語言要求,針對圖像進行更精確的「多輪編輯」。
第三,該模型能在編輯同時保留臉部、動物和其他細節的一致性。《TechCrunch》評論,這是多數競爭對手難以做到的。舉例來說,若要求 ChatGPT 或 Grok 更改人物襯衫顏色,常會導致臉部扭曲或背景被改變。
外媒《The Register》編輯 Avram Piltch 實測,上傳一張人物半身照和與兩張椅子照片,並要求生成一張「坐在紅椅子上的照片」。結果,Gemini 不僅把人物放進椅子上,還補上了原本照片缺失的手和腿,甚至將 T 恤上原本只顯示一半的 Logo 完整補齊,「我們測試了這款新引擎,效果相當驚人。」
第四,Gemini 2.5 Flash Image 特別擅長依循視覺模板,例如房地產卡片、員工識別證或交易卡,也能用於製作 YouTube 縮圖。
AI 圖像模型戰場升溫,Google 怎麼布局?
AI 圖像模型已成為科技巨頭必爭之地。OpenAI 在 3 月推出 GPT-4o 原生圖像生成器後,帶動 ChatGPT 用戶數暴增,甚至掀起「吉卜力風」迷因潮。OpenAI 執行長奧特曼更透露,公司 GPU 幾乎因需求過高而「融化」。
為了追趕 OpenAI 和 Google,Meta 上週宣布將從新創公司 Midjourney 授權 AI 圖像模型。同時,獲得 a16z 支持的德國獨角獸 Black Forest Labs,則持續憑藉其 FLUX AI 影像模型主導各大基準測試。
《TechCrunch》分析指出,Google 這次強打的圖像編輯功能,或許能幫助其縮小與 OpenAI 的差距。目前 ChatGPT 每週活躍用戶突破 7 億,而 Google 執行長皮查在 7 月透露,Gemini 月活躍用戶達 4.5 億。
另外值得注意的是 Gemini 2.5 Flash Image 的 API 定價。Google 表示,該模型的價格為每 100 萬輸出 token 30 美元。相比之下,OpenAI 的圖像生成 API 費率為 每 100 萬輸出 token 40 美元,這讓 Google 的產品顯得便宜許多。
此外,Google 也積極擴張生態系。Gemini 2.5 Flash Image 除了可透過 Gemini app 與 Google AI Studio 使用,也已整合進 Adobe 的 Firefly 和 Adobe Express ,同時成為 OpenRouter上首個支援圖像生成的模型。
Google 也強調,所有透過 Gemini 2.5 Flash Image 生成或編輯的圖片,都會自動嵌入一個隱形的 SynthID 數位浮水印。這個浮水印是看不見的,但可以用來辨識該圖片是否為 AI 生成或經過 AI 編輯。
AI 機器人浪潮來襲!立即免費下載《AI 機器人全球 7 大勢力關鍵報告》,解鎖各國 AI 機器人發展重點
*本文開放合作夥伴轉載,資料來源:Google 1、Google 2、《TechCrunch》、《Inc》、《The Register》、《Business Insider》、《SiliconAngle》,首圖來源:Google