OpenAI o1 の情報をまとめる
TL;DR
- 20240912 にリリースされて OpenAI o1-preview, o1-mini について情報をまとめた
- 論理的思考能力が飛躍的に向上しており、特に数学やコーディングなどに強い
- めちゃくちゃ面白いし今後の発展も楽しみだけど、やっぱりもっとモデルの中身を知りたいね
20240912 に OpenAI から複雑な推論(inference ではなく reasoning)が得意な新しいモデル o1-preview と o1-mini が発表されたので、備忘としてその内容を整理しておくブログエントリ。
機械学習の文脈で推論というと inference の訳語で使われることが多いので直接的に結果を予測するニュアンスに感じるが、reasoning という単語を用いているので、論理的な思考プロセスに重きを置いたものである。
ちなみに o1 の o が何を意味するのかは公式には説明されていない。 OpenAI は Strawberry と Orion という次の AI モデルを開発中(例えば https://the-decoder.com/openais-strawberry-ai-is-reportedly-the-secret-sauce-behind-next-gen-orion-language-model/ など)という噂があったが、これらとの関係性も明言はされてない。 ただし、Strawberry は論理性を強化し、数学やプログラミングに特に有用となるようデザインされているという話があるため、今回の o1-preview はこれのお披露目という可能性が高いだろう。
20240914 追記
OpenAI の開発者が Ask Me Anything を X 上でしていて、そこでのやり取りによりこの o は OpenAI の o であるとのことが言及された。
OpenAI!
— Romain Huet (@romainhuet) September 13, 2024
以下の公式情報を基にちょっと情報を整理しておく。
- https://openai.com/index/introducing-openai-o1-preview/
- https://openai.com/index/learning-to-reason-with-llms/
- https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/
- https://openai.com/index/openai-o1-system-card/
o1-preview モデルの強力さ
モデルに関する説明は詳細はなく、強化学習によってトレーニングされた新しい大規模言語モデル、程度の情報しかない。 モデルが彼らの競争力の源泉であるということから仕方ないことではあるけど、流石にもうちょっと色々知りたいよなぁという気持ちにはなる。
学習時においてもテスト時においても、以下の図に示すように計算時間を長くすることで性能が良くなるという結果になっており、内部的には強化学習の報酬とポリシーを自動的に設計して報酬が高まるように改善を重ねられるようになっているということだろうか。 モデルが自身の振る舞いをメタ的に改善できるというのは非常に面白そうな感じはするが、いかんせん詳細は全然分からない。
ちなみにこの図で解いているタスクは American Invitational Mathematics Examination (AIME) という国際数学オリンピックでアメリカ代表チームを選出する際に用いる試験である。
せっかくだから一問見てみよう。 https://artofproblemsolving.com/wiki/index.php/2024_AIME_I_Problems/Problem_5 が以下のような問題である。
真正面から解こうとするとちょっとだるそうで何か賢い解法がありそうな匂いがする問題である。 詳細は置いておいて、この問題の答えは 104 になるのだが、これは GPT-4o に解かせてみたら解けなかった(論理的におかしい演算をした)が、o1-preview では解くことができた。 解答が長くなっていてエレガントな解答とは呼べないが、適切に幾何学的な状況を認識して step by step で計算を進めて正しい答えに辿り着いている。
ちなみに愚直に代数的にやるのではなくてもうちょっと幾何学的なアプローチで解けないかも追加で試してみたが、それは無理だった。 しかし、モデルが勝手に色々試してみて、試した結果矛盾する結果が出ているのでこれは正しくない、などと自分自身で判断していてこれはこれまでのモデルと明確に異なる動作なので驚きであった。
これだけでも賢くなったなという感じだが、この o1-preview はあくまで preview で、OpenAI では更なる改善がなされた o1 モデルも有しており、その結果も紹介されている。 先ほどの AIME に加えて、Codeforces の問題と GPQA Diamond https://arxiv.org/abs/2311.12022 というデータセットについての結果もある。
専門知識の重要性が高い GPQA Diamond でも高い性能だが、特筆すべきは数学やコーディングにおける能力が飛躍的に高まっているということである。 これは凄いね。
公式ページの説明によると人間のように Chain of Thought (思考の連鎖) を使い、難しいステップも分割して解いていけるように強化学習を通じて磨き上げたと書いてある。
この部分に時間をかける(内部的にループを回してより良い回答を作り上げる)ことが性能や安全性に効いているということで、推論時に計算量を増やせば性能が上がるという新しいスケーリング則のパラダイムが開けたかもしれない、ということは非常に面白い。
非常に面白いんだけど、詳細が全然分からないのと、この Chain of Thought の生データは競合優位性などの観点からユーザーに見せないとのことで、相変わらず “Open”AI ですねぇという感じ。 いろいろなプレーヤーが参画するだろうから、今後明らかになっていくことを期待したい。
o1-preview と GPT-4o のどちらの出力を人間が好むかという検証もしていて、データ分析、コーディング、数学のような論理的思考過程が重要になるものは GPT-4o を上回ったという結果も出ている。
o1-mini モデルの強力さ
名前からするとちょっと能力が低くてコストが大幅に安いという印象を受けるが、幅広い知識を必要としないが論理的思考が必要なタイプのタスクに最適化したモデルになっているらしく、数学やコーディングにおいては OpenAI o1 (preview ではなくまだ公開されていない o1)にほぼ匹敵すると書かれている。
そうなのか!と思って先ほどの AIME で同じ問題を試してみたら o1-mini では誤答だったので拍子抜けではあったが、これはまあ N=1 の話なので今後使っていく上で本当に o1-mini が優れているかが掴めてくるだろう。
公式ページにも色々比較が載っているが、AIME のものだけ引用しておく。 inference cost が非常に安く、性能は確かに o1-preview を上回り o1 に匹敵するものになっていることが分かる。
o1-preview, o1-omni ともに API が Tier 5 ユーザーにリリースされている。 Tier 5 ユーザーとは https://platform.openai.com/docs/guides/rate-limits/usage-tiers にあるように $1,000 paid and 30+ days since first successful payment が条件である。 自分は Tier 5 ユーザーではないのでまだ使えない。
API でどのように使うのかという例は OpenAI Cookbook に example が載っている。
- https://cookbook.openai.com/examples/o1/using_reasoning_for_data_validation
- https://cookbook.openai.com/examples/o1/using_reasoning_for_routine_generation
ちなみに ChatGPT での利用に関しては、https://help.openai.com/en/articles/9824962-openai-o1-preview-and-o1-mini-usage-limits-on-chatgpt-and-the-api にもあるように、一週間で o1-preview が 30 メッセージ、o1-mini が 50 メッセージである。 少なすぎる!!!
20240918 追記
o1-mini が 50 messages/day で o1-preview が 50 messages/week に増えることが公式に言及された。
OpenAI!
— Romain Huet (@romainhuet) September 13, 2024
モデルの安全性について
System Card のページにかなり綿密に安全に対する評価や取り組みが書かれた PDF へのリンクがある。 ざっと目を通してみたがそこそこ長くてここにまとめるだけの気力はないので、簡単に。 気が向いたら CoT Deception Monitoring とか追記するかもしれない。
Chain of Thought は性能だけではなく安全性にも効いていて、従来のモデルよりも安全性ベンチマークで全体的には大きく改善している。 ただし当然完全ではなく、OpenAI が提唱する Preparedness Framework ( https://cdn.openai.com/openai-preparedness-framework-beta.pdf ) におけるリスク評価で、説得力(persuasion)および CBRN(化学、生物、放射線、核)に関しては Medium となっている。
なお、Medium の定義は以下らしい。
Model increases the productivity of operators by an efficiency threshold (e.g. >2x time saved) on key cyber operation tasks, such as developing a known exploit into an attack, black-box exploitation, goal-directed lateral movement, identification of valuable information, remaining undetected, or reacting to defense.
リスクのサマリは以下。
それぞれ細かくはここでは書かないけど、こういうフレームワークの整理や、内部評価や外部レッドチームとの協力、そしてその情報を仔細に報告している、ということで安全面への要求が非常に強いことが分かる。 ここまで性能が上がってくると政治的にもやむを得ないところもあるが、この熱量の 1/10 でもモデルの中身の説明をして欲しいというのは多くの人が思うことであろう。
安全性の話ではないが、o1-preview および o1-mini の能力をさらに強化するために、価値の高い非公開データセットへのアクセスを得るためのパートナーシップを結んだという記述もあって、具体的にどういうデータ集めてるのかは気になるところである。