阿里巴巴推出全新多模態 AI 模型 Qwen VLo　不再開源引發關注

更新於 6分鐘前 • 發布於 2天前 • NewMobileLife

中國科技巨頭 Alibaba 近期發表了其最新力作——Qwen VLo，這款多模態 AI 模型旨在徹底改變影像的分析、生成與編輯方式，然而其不再開源的決策，正引發業界的廣泛討論。

技術原理與獨特功能

根據 Alibaba 的說明，Qwen VLo 採用了漸進式生成方法，影像能從左至右、由上至下逐步建構，同時不斷精修其輸出內容。這種獨特的方式賦予了使用者對成果更精準的控制權，尤其是在處理較長文字輸出時。儘管 Alibaba 尚未公開詳細的技術資訊，但 Qwen VLo 很可能採用類似 GPT-4o 的 autoregressive 方法，而非 diffusion-based 的途徑。

功能多元性與初期限制

Qwen VLo 能夠解讀複雜的自然語言編輯指令，讓使用者輕鬆更換背景、插入新物件、改變視覺風格，甚至將多張影像融合成一。該系統同時支援藝術性與技術性的影像修改，例如能依需求生成分割圖 (segmentation maps)、執行邊緣偵測 (edge detection)，或建立帶有彩色覆蓋的深度圖 (depth maps)。儘管此模型支援多種解析度和長寬比（例如極端的 4:1 或 1:3 格式），甚至支援中文、英文等多種語言，但部分進階功能目前尚未啟用。

開源策略的轉變

Qwen VLo 目前透過 Alibaba 的 Qwen Chat 網頁介面提供預覽。Alibaba 指出，此模型在生成錯誤、與原始影像不一致，以及遵循詳細指令方面仍有待改進，並表示將持續提升其可靠性與穩定性。此前，Alibaba 在開源 AI 語言模型領域表現出色，例如其在四月發布了 Qwen3 及其模型權重，為開放式 AI 研究做出了重要貢獻。因此，Qwen VLo 未隨附模型權重發布的原因尚不明朗，這也引發了外界對 Alibaba 未來開源策略是否將發生重大轉變的猜測。

NewMobileLife 網站：https://www.newmobilelife.com

查看原始文章