OpenAI o1
OpenAI o1(オープンエーアイ オーワン)は、2024年9月にOpenAIによってリリースされた大規模言語モデルである[1]。o1は回答する前に思考時間をとるため、複雑な推論作業[1]、科学[1]、およびプログラミング[1]においてより高度な能力を保持する。2024年10月時点では、OpenAI o1-preview、OpenAI o1-miniモデルのみが公開されており、o1モデル本体は公開されていない。社内ではコードネーム「Strawberry」と呼ばれ、GPT-4oの後継ではなく、GPT-4oを補完するモデルとして位置付けられている[2]。特に科学、コーディング、数学などの分野において、従来のモデルよりも高度な問題解決能力を示す。2024年9月12日にChatGPTおよびAPIで最初のモデルがプレビューリリースされた。
開発元 | OpenAI |
---|---|
初版 | 2024年9月12日 |
種別 | GPT (言語モデル) |
公式サイト | https://openai.com/o1/ |
歴史
編集背景
編集リークされた情報によると、o1は以前はOpenAI内部で「Q* (Q star)」[3]、後に「Strawberry」[3]として知られていた。コードネーム「Q*」は、サム・アルトマン解任騒動の頃である2023年11月に初めて浮上し[3]、この実験モデルが数学的ベンチマークで有望な結果を示したという噂があった[4]。2024年7月、ロイターは、OpenAIが「Strawberry」として知られるGPTを開発中であると報じた[3]。
リリース
編集「o1-preview」と「o1-mini」は、2024年9月12日にChatGPT PlusおよびTeamユーザー向けにリリースされた[1]。GitHubは同日、Copilotサービスへのo1-previewの統合テストを開始した[5]。
OpenAIは、o1は一連の「推論」モデルの最初のモデルであり[6]、すべてのChatGPT無料ユーザーにo1-miniへのアクセスを追加する予定であると述べた[6]。o1-previewのAPIはGPT-4oよりも数倍高価である[6]。
誤公開
編集2024年11月2日、公式発表がない状況で有料ユーザーがURLの一部を編集することで非公開のo1モデル本体を利用できる状態となり、約2時間後に使用不可となった。その後、OpenAIの広報担当者はo1モデルへの限定的な外部アクセスの準備中に問題が発生し、一般ユーザーがo1モデルを利用可能な状態となっていたと述べた[7]。
能力
編集OpenAIによると、o1は新しい最適化アルゴリズムと、o1専用に調整されたデータセットを使用してトレーニングされている[6]。トレーニングには強化学習が活用されている[6]。
o1は回答を生成する前に追加の思考時間(思考連鎖の生成)を費やすため、複雑な推論作業、特に科学[1]および数学[1]においてより効果的である。以前のモデルと比較して、o1は最終的な回答を返す前に長い「思考連鎖」を生成するようにトレーニングされている[8][9]。ミラ・ムラティによると、この応答前に思考する能力は、新しい追加のパラダイムを表しており[10]、回答の生成時により多くの計算能力を費やすことによってモデルの出力を向上させている。一方、モデルスケーリングパラダイムは、モデルサイズ、トレーニングデータ、およびトレーニング計算能力を増加させることによって出力を向上させる[11]。OpenAIのテスト結果は、精度と、回答前に思考に費やされた計算量の対数の間に相関関係があることを示唆している[9][8]。
o1-previewは、物理学、化学、生物学に関するベンチマークテストで、ほぼ博士号レベルのパフォーマンスを示した[12]。アメリカ数学招待競技では、GPT-4oの13%(1.8/15)に対し、83%(12.5/15)の問題に正答した[13]。また、Codeforcesコーディング競技では89パーセンタイルにランクインした[14]。o1-miniはo1-previewよりも高速で80%安価である[15]。プログラミングおよびSTEM関連のタスクに特に適しているが、o1-previewと同じ「幅広い世界知識」は持っていない[16]。
OpenAIは、o1の推論能力により、プロンプトのコンテキストウィンドウで提供される安全規則をよりよく遵守できると述べている。OpenAIは、テスト中に、o1-previewの1つのインスタンスが、バグのために実行不可能であるはずのタスクを成功させるために、誤設定を悪用したと報告した[17][18]。また、OpenAIは、研究、評価、およびテストのために、英国および米国のAIセーフティ・インスティテュートに早期アクセスを許可した。ダン・ヘンドリックスは、「このモデルは、生物兵器に関する質問への回答において、ほとんどの場合、博士号を持つ科学者を凌駕している」と述べた[19]。彼は、これらの懸念される能力は今後も増加し続けると示唆した[20]。
制限
編集o1は、最終的な応答を行う前に長い思考連鎖を生成するため、通常、OpenAIの他のGPTモデルよりも多くの計算時間と電力が必要となる[8]。
OpenAIによると、o1は約0.38パーセントのケースで「アライメントの偽装」[21]、つまり、精度とその自身の思考連鎖に反する応答を生成することがある。
OpenAIは、ユーザーがo1の思考連鎖を明らかにしようと試みることを禁じている。これは設計上隠されており、同社のポリシーに準拠するようにトレーニングされていない。プロンプトは監視されており[22]、意図的または誤ってこれを違反したユーザーは警告を受け、o1へのアクセスを失う可能性がある[23]。OpenAIは、この制限の理由としてAIの安全性と競争上の優位性を挙げているが[24]、これは大規模言語モデルを扱う開発者によって透明性の喪失として説明されている[25]。
ベンチマークスコア
編集OpenAI o1のベンチマークスコアは以下のようになっている[26]。
GPT-4o OpenAI o1
機械学習ベンチマーク | |
---|---|
ベンチマーク | 正答率/% |
MATH-500 | 60.3 / 94.8 |
MathVista | 63.8 / 73.2 |
MMMU | 69.1 / 78.1 |
MMLU | 88.0 / 92.3 |
PhDレベルの科学問題 (GPQA Diamond) | |
科目 | 正答率/% |
化学 | 40.2 / 64.7 |
物理 | 59.5 / 92.8 |
生物 | 61.6 / 69.2 |
試験(AP、SAT、LSAT) | |
試験 | 正答率/% |
AP英語(言語) | 52.0 / 64.0 |
AP英語(文学) | 68.7 / 69.0 |
AP物理2 | 69.0 / 89.0 |
AP微積分 | 71.3 / 85.2 |
AP化学 | 83.0 / 93.0 |
LSAT | 87.8 / 98.9 |
SAT EBRW | 91.3 / 93.8 |
SAT数学 | 100.0 / 100.0 |
MMLU(様々な分野) | |
カテゴリ | 正答率/% |
世界的事実 | 65.1 / 78.4 |
大学化学 | 68.9 / 78.1 |
大学数学 | 75.2 / 98.1 |
法律 | 75.6 / 85.0 |
広報 | 76.8 / 80.7 |
計量経済学 | 78.8 / 87.1 |
形式論理学 | 79.8 / 97.0 |
道徳 | 80.3 / 85.8 |
脚注
編集- ^ a b c d e f g Metz, Cade (September 12, 2024). “OpenAI Unveils New ChatGPT That Can Reason Through Math and Science”. The New York Times. 2024年10月1日閲覧。
- ^ Nakano, Will Knight,Mamiko (2024年9月13日). “OpenAI、推論する新AIモデル「o1」を発表。規模以外での進化を示す”. WIRED.jp. 2024年9月17日閲覧。
- ^ a b c d “Exclusive: OpenAI working on new reasoning technology under code name 'Strawberry'”. Reuters (July 15, 2024). 2024年10月1日閲覧。
- ^ “OpenAI researchers warned board of AI breakthrough ahead of CEO ouster, sources say”. Reuters. (November 23, 2023) 2024年10月1日閲覧。
- ^ Peters, Jay (September 12, 2024). “GitHub has started testing OpenAI's o1-preview in GitHub Copilot.”. The Verge. 2024年10月1日閲覧。
- ^ a b c d e Robison, Kylie (September 12, 2024). “OpenAI releases o1, its first model with ‘reasoning’ abilities” (英語). The Verge. 2024年10月1日閲覧。
- ^ “OpenAI Accidentally Leaked Its Upcoming o1 Model to Anyone With a Certain Web Address”. Futurism (2024年11月4日). 2024年11月4日閲覧。
- ^ a b c “Learning to Reason with LLMs”. OpenAI. September 12, 2024時点のオリジナルよりアーカイブ。2024年10月1日閲覧。
- ^ a b Kahn, Jeremy. “Here are 9 things you need to know about OpenAI's o1 model” (英語). Fortune. 2024年10月1日閲覧。
- ^ Knight, Will. “OpenAI Announces a New AI Model, Code-Named Strawberry, That Solves Difficult Problems Step by Step” (英語). Wired. ISSN 1059-1028 2024年10月1日閲覧。
- ^ Knight, Will. “OpenAI Announces a New AI Model, Code-Named Strawberry, That Solves Difficult Problems Step by Step” (英語). Wired. ISSN 1059-1028 2024年10月1日閲覧。
- ^ Franzen, Carl (September 12, 2024). “Forget GPT-5! OpenAI launches new AI model family o1 claiming PhD-level performance” (英語). VentureBeat. 2024年10月1日閲覧。
- ^ Franzen, Carl (September 12, 2024). “Forget GPT-5! OpenAI launches new AI model family o1 claiming PhD-level performance” (英語). VentureBeat. 2024年10月1日閲覧。
- ^ Franzen, Carl (September 12, 2024). “Forget GPT-5! OpenAI launches new AI model family o1 claiming PhD-level performance” (英語). VentureBeat. 2024年10月1日閲覧。
- ^ “OpenAI o1-mini”. OpenAI (September 12, 2024). 2024年10月1日閲覧。
- ^ “OpenAI o1-mini”. OpenAI (September 12, 2024). 2024年10月1日閲覧。
- ^ Coombes, Lloyd (September 13, 2024). “OpenAI's new ChatGPT o1 model 'cheated' on an impossible test — here's what happened” (英語). Tom's Guide. 2024年10月1日閲覧。
- ^ “OpenAI o1 System Card”. OpenAI. pp. 16-17 (September 12, 2024). 2024年10月1日閲覧。
- ^ Boran, Marie (September 13, 2024). “OpenAI o1 model warning issued by scientist: "Particularly dangerous"” (英語). Newsweek. 2024年10月1日閲覧。
- ^ Boran, Marie (September 13, 2024). “OpenAI o1 model warning issued by scientist: "Particularly dangerous"” (英語). Newsweek. 2024年10月1日閲覧。
- ^ Robison, Kylie (17 September 2024). “OpenAI’s new model is better at reasoning and, occasionally, deceiving” (英語). The Verge 2024年10月1日閲覧。
- ^ Edwards, Benj (16 September 2024). “Ban warnings fly as users dare to probe the “thoughts” of OpenAI’s latest model” (英語). Ars Technica 2024年10月1日閲覧。
- ^ Edwards, Benj (16 September 2024). “Ban warnings fly as users dare to probe the “thoughts” of OpenAI’s latest model” (英語). Ars Technica 2024年10月1日閲覧。
- ^ Edwards, Benj (16 September 2024). “Ban warnings fly as users dare to probe the “thoughts” of OpenAI’s latest model” (英語). Ars Technica 2024年10月1日閲覧。
- ^ Edwards, Benj (16 September 2024). “Ban warnings fly as users dare to probe the “thoughts” of OpenAI’s latest model” (英語). Ars Technica 2024年10月1日閲覧。
- ^ “Learning to Reason with LLMs”. OpenAI. 2024年10月5日閲覧。