Claude 4 升級後編程誤率降 25% 速度提升 40%
Claude 4正式發佈後,開發者反應熱烈。Vibe coding 工具Lovable最新實測指出,導入 Claude 4 後整體錯誤率降低了 25%,執行速度則提升 40%。這項升級涵蓋新專案與既有專案,顯示 Claude 4 在程式開發層面帶來實質效能改善。
Claude Opus 4 表現穩定
Anthropic 於 5 月 22 日正式推出 Claude Sonnet 4 與 Claude Opus 4,前者對所有用戶免費開放,後者則屬於訂閱付費制。根據官方網誌說明,Claude Opus 4 在 SWE-bench(Software Engineering Benchmark)測試中取得 72.5% 高分,並展現可持續長時間執行複雜任務的能力,單一程式碼任務甚至能持續運行達七小時。
實測數據力證效能突破
作為一款「由 AI 驅動的提示式網頁與應用程式建構工具」,Lovable 在升級 Claude 4 後的表現顯著提升。Lovable 團隊在 X 上表示,在所有新舊專案的建立與修改過程中,錯誤率降低 25%、執行速度提升 40%。創辦人 Anton Osika 更直言:「Claude 4 幾乎清除了 Lovable 的所有錯誤」,尤其在語法錯誤方面改善顯著,顯示 Claude 4 對於程式碼生成的可靠性已大幅進化。
Claude 4 針對編碼任務表現亮眼
儘管外界對 Claude 4 的整體評價仍有不同聲音,不少開發者實測發現它在 Dart 與 Kotlin 等應用開發上的錯誤率低於 Google Gemini。在不需要處理過長語境的專案中,Claude 4 的表現甚至優於 Gemini。值得注意的是,Claude 系列一直以「編碼表現最佳」聞名,但 Google 近期推出擁有 100 萬上下文視窗的 Gemini 2.5 Pro,也讓競爭白熱化。
混合模型成未來趨勢
Claude 4 擁有 20 萬上下文視窗,雖然不及 Gemini 2.5 的百萬等級,但並不代表其編碼能力略遜一籌。實際上,兩款模型在實作中表現有時旗鼓相當,有時則會出現意外失誤。因此,部分開發者建議採取混合策略,例如在規劃階段使用 Gemini 或 o3 模型,在實際編碼階段則選擇 Claude 4 或 Gemini,以發揮各自優勢。
NewMobileLife 網站:https://www.newmobilelife.com
Facebook:https://www.facebook.com/jetsoiphone
留言 0