根據OpenAI公布的測試結果,o3在程式編碼、科學推理、數學解題與視覺任務等多項基準中均刷新紀錄:與第一代o1相比,大幅降低近二成的重大錯誤率,並在Codeforces、SWE‑bench以及MMMU等競賽中名列前茅。o4‑mini則以輕量化設計為重點,運行速度更快、成本更低,卻在AIME 2024與2025數學比賽中表現不俗,同時在資料科學與非理工領域的指令遵循度上,也超越前一代o3‑mini。

更值得一提的是,這兩款模型能「圖文一體」進行思考:使用者只需上傳手繪草稿、白板筆記或教科書插圖,模型即可自動進行旋轉、放大、裁切等操作,並在內部加入文字連結與視覺推理,迅速提供整合性解答。這項能力在視覺基準測試中亦取得顯著成績,為教學應用與跨領域研究開啟更多可能性。

以往需要多道人工流程才能完成的複雜任務,如「比較加州今年與去年夏季用電趨勢」等,現可由模型自動搜尋公開資料、撰寫預測程式、繪製圖表,並同步解讀影響因素,一氣呵成。OpenAI指出,隨著強化學習規模持續擴大,未來將在相同延遲與成本條件下,進一步延長模型思考時間,以滿足更高階的深度分析需求。

整體而言,o3與o4‑mini的發表也代表ChatGPT在自主式工具運用與跨模態推理上的重要突破,預計接下來將在企業分析、學術研究與創意內容產出等情境中,為用戶帶來更高效且更貼近實務需求的AI助理體驗。這兩款模型現已對ChatGPT Plus與Pro付費用戶、企業版Teams與API用戶全面開放。

用戶即日起可透過ChatGPT頁面左上方來進行切換。翻攝ChatGPT
用戶即日起可透過ChatGPT頁面左上方來進行切換。翻攝ChatGPT