Gate 新聞訊息,4月27日——SemiAnalysis,一家半導體與 AI 分析公司,發布了一份包含 GPT-5.5、Claude Opus 4.7 與 DeepSeek V4 的編碼助手對比基準測試。關鍵發現:GPT-5.5 標誌著 OpenAI 在六個月後首次重返編碼模型的最前沿,且 SemiAnalysis 工程師如今在 Codex 與 Claude Code 之間交替使用;此前他們幾乎完全依賴 Claude。GPT-5.5 採用一種代號為「Spud」的新預訓練方法,代表 OpenAI 自 GPT-4.5 以來首次擴大預訓練規模。
在實際測試中,出現了明顯的分工。Claude 負責新的專案規劃與初始設定,而 Codex 在推理密集型的除錯修復方面表現更出色。Codex 展現出更強的資料結構理解與邏輯推理能力,但在推斷含糊的使用者意圖方面存在困難。在一個單一儀表板任務中,Claude 會自動複製參考頁面版面,但卻捏造大量資料;而 Codex 則跳過版面,但提供了顯著更準確的資料。
分析揭示了一個基準測試操控細節:OpenAI 在 2 月的博客文章中呼籲業界採用 SWE-bench Pro 作為新的編碼基準標準。然而,GPT-5.5 的公告改用了一個名為「Expert-SWE」的新基準。其原因被埋在細微的附註之中:GPT-5.5 在 SWE-bench Pro 上被 Opus 4.7 超越,且在未發布的 Mythos (77.8%) 上遠遠落後 Anthropic。
至於 Opus 4.7,Anthropic 在發布一週後發表了死因剖析式分析,承認 Claude Code 存在三個在 3 月至 4 月持續數週、影響幾乎所有用戶的錯誤。多位工程師先前已報告 4.6 版出現效能退化,但都被否定為主觀觀察。此外,Opus 4.7 的新 tokenizer 會使 token 使用量最多增加 35%,而 Anthropic 也公開承認——實際上等同於隱藏的價格上調。
DeepSeek V4 被評估為「跟上前沿但不領先」,並將自己定位為封閉來源模型中的最低成本替代方案。分析亦指出:「Claude 依然能在高難度中文寫作任務上優於 DeepSeek V4 Pro」,並評論稱:「Claude 在自己的語言中擊敗了中文模型。"
文章引入一個關鍵概念:模型定價應以「每項任務成本」來評估,而不是「每 token 成本」。GPT-5.5 的定價是 GPT-5.4 的兩倍 (input $5, output $30 per million tokens),但它能用更少的 token 完成相同的任務,因此實際成本未必更高。SemiAnalysis 的初步數據顯示 Codex 的輸入到輸出比為 80:1,低於 Claude Code 的 100:1。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
AstraZeneca 透過 2027 擴大與 Immunai 的 AI 合作夥伴關係至 2027
根據 Calcalist 報導,AstraZeneca 已將其與紐約的 AI 生技公司 Immunai 的合作擴大至 2027 年。依據擴大後的合約,隨著藥廠持續將其平台整合到腫瘤藥物中,Immunai 在 2026 年與 2027 年具資格最高可獲得 3750 萬美元。
Crypto Frontier1分鐘前
DeepL 裁撤 250 個職缺(占員工規模的 25%),隨著 AI 競爭加劇
根據彭博社,DeepL 在 5 月 7 日裁減 250 個職位,佔其員工總數的 25%。執行長 Jarek Kutylowski 將此舉歸因於由 AI 推動的「大規模結構性轉變」。這家總部位於科隆的翻譯軟體新創公司成立於 2017 年,當時是作為 Google 翻譯的競爭對手,如今面臨愈發加劇的
GateNews1分鐘前
OpenAI 於週四推出 GPT-5.5-Cyber 模型,供已審查的資安團隊使用
週四(5 月 8 日),OpenAI 宣布其最新 AI 模型變體 GPT-5.5-Cyber 現已在受審核的網路安全團隊中提供有限預覽。這個專門版本已針對資安相關任務進行最佳化,包括漏洞識別與優先順序、修補程式驗證、以及
GateNews4分鐘前
Nvidia 將投資最高 21 億美元於資料中心公司 IREN
根據 Bloomberg Terminal,Nvidia 於週四宣布,將投資最高 21 億美元於資料中心開發商 IREN Ltd.,作為一項合作的一部分,以加速人工智慧基礎建設的建置。IREN 已向 Nvidia 授予一份為期五年的認股權證,允許其以購買多達 3 千萬股。
GateNews3小時前
CZ 表示 YZi Labs 在 Consensus Miami 2026 將 70% 分配給區塊鏈,20% 分配給 AI
根據 ChainCatcher 報導,在 Consensus Miami 2026 上,趙長鵬(CZ)表示 YZi Labs 將 70% 的資金投向區塊鏈、20% 投向 AI、10% 投向生物科技。CZ 進一步補充,BNB 應被定位為 AI 代理的原生貨幣,且所有區塊鏈都需要「AI ready」以支援
GateNews8小時前
Public 收購 AI 投資平台 Treasury App 以擴大加密貨幣交易
根據 ChainCatcher,Public 宣布收購 AI 投資服務平台 Treasury App,以強化其由 AI 驅動的經紀業務。收購金額未予披露。Public 目前支援交易股票、債券與加密貨幣,包括 Bitcoin、Ethereum、a
GateNews10小時前