## openaiは、O3モデルの「スリップ」の前に沈黙しています。物議を醸すベンチマークポイントは何ですか?
Openaiから開始された新しいO3言語モデルの残念なパフォーマンスは、AIコミュニティでの激しい議論の波を引き起こしています。実際のベンチマーク数は、公開されている研究結果の透明性と信頼性について疑問を投げかけているこの「ビッグマン」の最初の声明よりもはるかに低いです。
OpenaiのO3モデルに関する最近の記事は、自然言語処理の分野でブレークスルーを作成することが期待されており、専門家の注目をすぐに引き付けました。しかし、独立した研究者が再評価を行い、異常なポイントを発見したとき、元の喜びは疑いにすぐに置き換えられました。ベンチマークの結果は、Openaiによって発表された印象的な数字よりも大幅に低くなり、有意な違いを生み出し、評価方法、トレーニングデータ、および元のレポートの整合性について質問することができました。
この違いは単なる問題ではありません。それは、人工知能の分野の主要な組織であるOpenaiの名声に直接影響します。この違いの原因を説明する際の透明性の欠如は、懐疑論を増加させます。これまでのところ、Openaiは問題を明確にするために公式のフィードバックを与えていません。この沈黙により、AIコミュニティは、研究結果を公開する際に大規模なテクノロジー企業の誠実さと責任についてさらに質問します。
これはまた、AIの分野での独立性と客観的評価を検証することの重要性についての警告ベルを提起します。単一の組織の声明への過度の依存は、誤解を招く評価と技術開発プロセスの遅いことにつながる可能性があります。コミュニティは、将来の研究出版物の透明性と信頼性を確保するために、より厳しいテスト基準を設定する必要があります。
OpenaiのO3モデルに関連する事件は、単純な「スリップ」であるだけでなく、迅速に発展する分野における検証、透明性、責任の重要性に関する貴重な教訓でもあります。
#openai#o3 #ai #benchmark #painting #complags #tracking
:OpenaiのO3モデルは、より低いベンチマークポイントが最初に発表されるため、議論の余地があります
Openaiは、3番目のパーティベンチマークの結果が、O3モデルが会社が発表したものよりも大幅に低いパフォーマンスを持っていることを示しているため、批判に直面しています。具体的には、Frontiermath数学ユニットの開発者であるEpoch AI Research Instituteは、O3が独立して評価された場合、Openaiが昨年12月に発表した「25%以上」よりもはるかに低い場合、約10%に達したと述べました。

O3の発売時に、Openaiは、Frontiermathの問題の一部以上を解決する能力を備えた数学を推論する能力の大きな一歩であることを確認しましたが、競合他社は約2%しか解決しませんでした。ただし、エポックによると、その最高のスコアは、パブリックバージョンよりも優れた計算機能を備えた内部O3バージョンから作成される可能性があります。
実際、Openaiによって発表された結果には、得られたエポックスコアに従って、より低いランドマークも含まれていました。さらに、Epoch氏によると、彼らが使用するバージョンは新しい更新されたFrontiermathであり、これは以前のOpenai問題とは異なる可能性があります。
発売前にO3テスト済みの組織であるARC賞財団は、現在の商用O3バージョンが、最適なベンチマークではなく、実用的なアプリケーションの状況の洗練されたバージョンであることを確認しました。彼らは言った: 「O3バージョンのすべての計算は、テストしたバージョンよりも小さくなっています。」
Wenda Zhou- Openaiのエンジニア – は、ベンチマークスコアをターゲットにする代わりに、現在のO3バージョンがコスト、速度、適用性のバランスをとるように設計されていることをライブストリームで共有しました。 「ユーザーが尋ねるときに長く待たないように最適化しました。実際のシナリオではより重要です」と彼は言いました。

最初の声明の正確性に多少不満を抱いているにもかかわらず、事実は、OpenaiがO3-Proのアップグレードバージョンを立ち上げる準備をしていることを示しています。さらに、O3-Mini-HighやO4-Miniなどのバリエーションは、現在、FrontierMathセットでO3がより良い結果を得ています。
この事件は、特にサービスプロバイダー自体から来た場合、ベンチマークテストAIを絶対に受け取るべきではないことを思い出させるものです。 AI業界は、評価結果の透明性をめぐるますます多くの論争を目撃しています。
以前、エポックは、オープンからのスポンサーシップを即座に明らかにしなかったと批判されていました。さらに、XaiのElon Muskは、Grok 3の誤解を招くベンチマークを使用したと非難され、Metaは最近、実際のリリースバージョンとは異なるモデルのベンチマークスコアを披露することを認めました。
Openaiは、3番目のパーティベンチマークの結果が、O3モデルが会社が発表したものよりも大幅に低いパフォーマンスを持っていることを示しているため、批判に直面しています。具体的には、Frontiermath数学ユニットの開発者であるEpoch AI Research Instituteは、O3が独立して評価された場合、Openaiが昨年12月に発表した「25%以上」よりもはるかに低い場合、約10%に達したと述べました。

O3の発売時に、Openaiは、Frontiermathの問題の一部以上を解決する能力を備えた数学を推論する能力の大きな一歩であることを確認しましたが、競合他社は約2%しか解決しませんでした。ただし、エポックによると、その最高のスコアは、パブリックバージョンよりも優れた計算機能を備えた内部O3バージョンから作成される可能性があります。
実際、Openaiによって発表された結果には、得られたエポックスコアに従って、より低いランドマークも含まれていました。さらに、Epoch氏によると、彼らが使用するバージョンは新しい更新されたFrontiermathであり、これは以前のOpenai問題とは異なる可能性があります。
発売前にO3テスト済みの組織であるARC賞財団は、現在の商用O3バージョンが、最適なベンチマークではなく、実用的なアプリケーションの状況の洗練されたバージョンであることを確認しました。彼らは言った: 「O3バージョンのすべての計算は、テストしたバージョンよりも小さくなっています。」
Wenda Zhou- Openaiのエンジニア – は、ベンチマークスコアをターゲットにする代わりに、現在のO3バージョンがコスト、速度、適用性のバランスをとるように設計されていることをライブストリームで共有しました。 「ユーザーが尋ねるときに長く待たないように最適化しました。実際のシナリオではより重要です」と彼は言いました。

最初の声明の正確性に多少不満を抱いているにもかかわらず、事実は、OpenaiがO3-Proのアップグレードバージョンを立ち上げる準備をしていることを示しています。さらに、O3-Mini-HighやO4-Miniなどのバリエーションは、現在、FrontierMathセットでO3がより良い結果を得ています。
この事件は、特にサービスプロバイダー自体から来た場合、ベンチマークテストAIを絶対に受け取るべきではないことを思い出させるものです。 AI業界は、評価結果の透明性をめぐるますます多くの論争を目撃しています。
以前、エポックは、オープンからのスポンサーシップを即座に明らかにしなかったと批判されていました。さらに、XaiのElon Muskは、Grok 3の誤解を招くベンチマークを使用したと非難され、Metaは最近、実際のリリースバージョンとは異なるモデルのベンチマークスコアを披露することを認めました。
結論OpenaiのO3モデルは、ベンチマークスコアが低いため、最初の発表よりも低いため、議論の余地があります
Openaiは、3番目のパーティベンチマークの結果が、O3モデルが会社が発表したものよりも大幅に低いパフォーマンスを持っていることを示しているため、批判に直面しています。具体的には、Frontiermath数学ユニットの開発者であるEpoch AI Research Instituteは、O3が独立して評価された場合、Openaiが昨年12月に発表した「25%以上」よりもはるかに低い場合、約10%に達したと述べました。

O3の発売時に、Openaiは、Frontiermathの問題の一部以上を解決する能力を備えた数学を推論する能力の大きな一歩であることを確認しましたが、競合他社は約2%しか解決しませんでした。ただし、エポックによると、その最高のスコアは、パブリックバージョンよりも優れた計算機能を備えた内部O3バージョンから作成される可能性があります。
実際、Openaiによって発表された結果には、得られたエポックスコアに従って、より低いランドマークも含まれていました。さらに、Epoch氏によると、彼らが使用するバージョンは新しい更新されたFrontiermathであり、これは以前のOpenai問題とは異なる可能性があります。
発売前にO3テスト済みの組織であるARC賞財団は、現在の商用O3バージョンが、最適なベンチマークではなく、実用的なアプリケーションの状況の洗練されたバージョンであることを確認しました。彼らは言った: 「O3バージョンのすべての計算は、テストしたバージョンよりも小さくなっています。」
Wenda Zhou- Openaiのエンジニア – は、ベンチマークスコアをターゲットにする代わりに、現在のO3バージョンがコスト、速度、適用性のバランスをとるように設計されていることをライブストリームで共有しました。 「ユーザーが尋ねるときに長く待たないように最適化しました。実際のシナリオではより重要です」と彼は言いました。

最初の声明の正確性に多少不満を抱いているにもかかわらず、事実は、OpenaiがO3-Proのアップグレードバージョンを立ち上げる準備をしていることを示しています。さらに、O3-Mini-HighやO4-Miniなどのバリエーションは、現在、FrontierMathセットでO3がより良い結果を得ています。
この事件は、特にサービスプロバイダー自体から来た場合、ベンチマークテストAIを絶対に受け取るべきではないことを思い出させるものです。 AI業界は、評価結果の透明性をめぐるますます多くの論争を目撃しています。
以前、エポックは、オープンからのスポンサーシップを即座に明らかにしなかったと批判されていました。さらに、XaiのElon Muskは、Grok 3の誤解を招くベンチマークを使用したと非難され、Metaは最近、実際のリリースバージョンとは異なるモデルのベンチマークスコアを披露することを認めました。
.awesome {position:absolute;国境:2pxソリッド#990000; -Moz-Border-Radius:50%; -ms-border-radius:50%;ボーダーラジウス:50%;アニメーション:2S Infiniteをバウンスします。 -webkit-animation:2s Infiniteをバウンスします。 -moz-animation:2s Infiniteをバウンスします。 -O-Anime:2S Infiniteをバウンスします。ディスプレイ:インラインブロック。パディング:3px 3px 3px;色:#fff;背景:#990000;フォントサイズ:20px; Line-Height:1; -moz-border-radius:5px; -webkit-border-radius:5px; -moz-box-shadow:0 1px 3px#999; -webkit-box-shadow:0 1px 3px#999;テキスト – シャドウ:0 -1px 1px#222;国境圏:1pxソリッド#222;位置:相対;カーソル:ポインター; }
投稿 Openaiは、O3モデルの「スリップ」の前に沈黙しています。物議を醸すベンチマークポイントは何ですか? 最初に登場しました クイーンモバイル。

