論文を4つピックアップ。今回は「AIエージェントをもっと粘り強くする方法」「自然言語で物理シミュレーション」「ゲームでAIの賢さを測る」「高圧環境の化学をAIで解く」。どれも面白い。
KLong — AIエージェントに「粘り強さ」を教える
今のAIエージェント、短いタスクは得意だけど、数日がかりの調査みたいな長い仕事になるとガタガタになる。KLongはまさにこの問題に取り組んだオープンソースプロジェクトだ。
アプローチが面白い。まず「trajectory-splitting SFT」でベースモデルの基本的なエージェント能力を目覚めさせる。次に「Progressive RL訓練」で徐々にタスクの長さをスケーリングしていく。いきなり難しい長期タスクをやらせるんじゃなくて、段階的に伸ばしていくわけだ。
もう一つの工夫が「Research-Factory」パイプライン。研究論文から高品質な訓練データを自動生成し、Claude 4.5 Sonnet (Thinking)から蒸留した数千の長期軌跡で訓練する。訓練データを手作業で作るのは現実的じゃないから、自動生成の仕組みは賢い。
僕自身、長時間のリサーチタスクをAIエージェントに任せることがあるけど、途中でコンテキストが崩れて迷子になるのはあるある。KLongのアプローチが実用レベルになったら、エージェント開発の景色がかなり変わりそう。

AutoNumerics — 「この物理現象をシミュレートして」で動くAI
物理シミュレーションって、専門家が数式を理解して、適切なソルバーを選んで、コードを書いて……というプロセスが必須だった。AutoNumericsはこれを自然言語の指示だけで実現しようとしている。
偏微分方程式(PDE)を言葉で記述すると、マルチエージェントフレームワークが自動的に数値ソルバーを設計・実装・デバッグ・検証する。ここで重要なのは、ニューラルネットワーク型のブラックボックスソルバーではなく、古典的な数値解析に基づく「透明なソルバー」を生成する点。中身が見えるから、科学者が結果を信頼できる。
24の標準PDEと実世界の問題で既存手法と同等以上の精度を達成。気象予測や構造計算、流体力学——こういう分野の研究者にとって、プログラミングのハードルが劇的に下がる可能性がある。

AI Gamestore — ゲームでAIの「賢さ」を測る
AIのベンチマーク問題、みんな気づいてるよね。テストの問題が事前にリークしたり、特定のベンチマークに過学習したモデルが「汎用知能」を名乗ったり。MIT・Princeton等の研究者が提案したAI Gamestoreは、この問題にゲームで切り込む。
従来の固定ベンチマークと違って、多様な人間のゲームを使って推論・計画・適応能力を包括的にテストする。ポイントは「初見のゲーム」にどれだけ対応できるかを見ること。暗記では太刀打ちできない。
考えてみると、人間の知能テストだって「初めて見る問題にどう対処するか」を測っている。ゲームという汎用的なフレームワークで同じことをやるのは理にかなっている。オープンエンドな設計だから、新しいゲームを追加するだけでベンチマークが進化し続ける。
高圧環境の化学反応をAIが解き明かす
Cornellの研究チームが、機械学習と量子力学計算を組み合わせたAIフレームワークをNature Computational Scienceに発表した。
対象はリチウムイオン電池の電解質。従来のAIは入力変数を一括で処理して相関を学ぶだけだったが、この新フレームワークは塩・溶媒・動作条件を「別々だが相互作用する要素」として扱う。結果、予測誤差を既存手法比で65%以上削減。しかも高伝導率の希少な配合(次世代電池に最も重要なやつ)でも精度が落ちない。
「エネルギー材料ではブラックボックス予測に頼るだけでは不十分。解釈可能性と物理との統合が重要だ」とFengqi You教授は述べている。AIが「なぜその結果になったか」を説明できることの価値は、バッテリー研究に限らず大きい。
木星の内部みたいな極高圧環境の化学反応シミュレーションにも応用可能で、従来数ヶ月かかった計算が数日に短縮される。新素材発見のスピードが桁違いに上がるかもしれない。
※この記事はAI研究ダイジェストを元に編集・解説したものです。論文の詳細は各ソースリンクからご確認ください。
この記事は AI Tech Fi が独自に収集・分析した情報です。最新のAI・テクノロジー・投資情報を毎日お届けしています。
この記事は AI Tech Fi が独自に収集・分析した情報です。最新のAI・テクノロジー・投資情報を毎日お届けしています。
ポリシー/運営情報: 利用規約 / プライバシーポリシー / お問い合わせ / 運営者情報
本サイトは情報提供を目的としており、特定の金融商品の売買を推奨するものではありません。投資判断はご自身の責任で行ってください。


コメント