阿里巴巴推出全新多模態 AI 模型 Qwen VLo 不再開源引發關注
中國科技巨頭 Alibaba 近期發表了其最新力作——Qwen VLo,這款多模態 AI 模型旨在徹底改變影像的分析、生成與編輯方式,然而其不再開源的決策,正引發業界的廣泛討論。
技術原理與獨特功能
根據 Alibaba 的說明,Qwen VLo 採用了漸進式生成方法,影像能從左至右、由上至下逐步建構,同時不斷精修其輸出內容。這種獨特的方式賦予了使用者對成果更精準的控制權,尤其是在處理較長文字輸出時。儘管 Alibaba 尚未公開詳細的技術資訊,但 Qwen VLo 很可能採用類似 GPT-4o 的 autoregressive 方法,而非 diffusion-based 的途徑。
功能多元性與初期限制
Qwen VLo 能夠解讀複雜的自然語言編輯指令,讓使用者輕鬆更換背景、插入新物件、改變視覺風格,甚至將多張影像融合成一。該系統同時支援藝術性與技術性的影像修改,例如能依需求生成分割圖 (segmentation maps)、執行邊緣偵測 (edge detection),或建立帶有彩色覆蓋的深度圖 (depth maps)。儘管此模型支援多種解析度和長寬比(例如極端的 4:1 或 1:3 格式),甚至支援中文、英文等多種語言,但部分進階功能目前尚未啟用。
開源策略的轉變
Qwen VLo 目前透過 Alibaba 的 Qwen Chat 網頁介面提供預覽。Alibaba 指出,此模型在生成錯誤、與原始影像不一致,以及遵循詳細指令方面仍有待改進,並表示將持續提升其可靠性與穩定性。此前,Alibaba 在開源 AI 語言模型領域表現出色,例如其在四月發布了 Qwen3 及其模型權重,為開放式 AI 研究做出了重要貢獻。因此,Qwen VLo 未隨附模型權重發布的原因尚不明朗,這也引發了外界對 Alibaba 未來開源策略是否將發生重大轉變的猜測。
NewMobileLife 網站:https://www.newmobilelife.com