超越GPT-4o!Google發佈新圖像生成AI模型Gemini 2.5 Flash Image
Google(GOOGL-US) 近日正式推出新一代圖像生成與編輯模型 Gemini 2.5 Flash Image。這款模型允許使用者只需描述文字,就能生成或編輯圖像。其創新之處在於能以極高速度與規模,提供精準、一致且高保真度的圖像編輯效果。
Gemini 2.5 Flash Image 建立在多模態與高階推理能力的 Gemini 2.5 基礎上,能原生理解圖像與文字,讓生成與編輯流程無縫連結。使用者可以:
- 透過單一指令將多張圖像融合成一張;
- 在多次編輯中保持主體與角色一致;
- 進行自然語言驅動的目標化改動(如「更換襯衫顏色」、「移除照片中的人物」);
- 無論編輯複雜度多高,都能透過修正保持內容與視覺完整性。
相較於舊款圖像模型,Gemini 2.5 Flash Image 大幅提升了編輯過程中身份與視覺一致性的維持能力。
其關鍵技術特點包括:
- 精準視覺編輯:支持根據自然語言提示進行高度精準的局部編輯,包括背景模糊、姿勢調整或物體移除。
- 多模態融合:可接受多張參考圖像並融合,適合製作複雜產品模擬圖或多角色廣告場景。
- 模板與品牌一致性:在生成資產或產品目錄時,保持風格、品牌與角色一致。
- 先進推理能力:結合 Gemini 語意知識,可應用於圖表理解、教育註解等任務,而不僅限於擬真圖像生成。
- 可擴展 API:開發者與企業可透過 Gemini API、Google AI Studio 及 Vertex AI 使用模型,所有生成圖像均內嵌 SynthID 浮水印,以符合 AI 來源追蹤與監管規範。
Gemini 2.5 Flash Image 技術表現
Gemini 2.5 Flash Image 上週其實已經以「nano-banana」的代號出現在大型語言模型競技場 LMArena 中,並獲得了用戶 200 多萬票的認可。
如今正式揭曉後,Gemini 2.5 Flash Image 在文字生成圖片與圖像編輯兩個場景均拿下了全球第一,在圖像編輯榜單上更是獲得 1362 的高分,較第二名的領先幅度接近 15%。
在 Google 公佈的基準測試中,Gemini 2.5 Flash Image 更是在用戶綜合喜好度、人物、創造力、資訊圖表、物件和環境的生成上均領先 GPT-4o 圖像生成、Flux.1 Kontext(max)、Qwen Image Edit 等模型,但在風格化能力上與 GPT-4o 圖像生成仍有差距。
專家與圖像愛好者均讚譽 Gemini 2.5 Flash Image 擬真效果與語意控制能力,即使多次編輯,也能保持自然且貼近原素材。
Gemini 2.5 Flash Image 價格、使用與未來規劃
目前,Gemini 2.5 Flash Image 以預覽模式提供,價格為 30 美元 / 100 萬個輸出 token,每張圖片為 1290 個輸出 token,每張圖像價格約為 0.039 美元。所有其他輸入和輸出模態均遵循 Gemini 2.5 Flash 定價。
隨著與 OpenRouter 及 fal.ai 等平台合作,企業與開發者整合快速成長。所有生成圖像皆內嵌不可見 SynthID 浮水印,保障可追蹤性與 AI 倫理合規性。Google 也持續優化長文本渲染與更精細的一致性控制。
Gemini 2.5 Flash Image 不僅速度更快、創造力更高,其技術突破在於終於解決了生成式 AI 長期面臨的「一致性與情境感知圖像編輯」難題,為創作者、開發者與企業開啟了全新的工作流程與創作可能性。