メイトゥアンが5600億パラメータの定理証明モデルをオープンソース化、72回の推論で97.1%の成功率を達成し、オープンソースの最先端を更新

GateNews

2026-03-21 02:27:21

ゲートニュースによると、3月21日に美団LongCatチームがLongCat-Flash-Proverをオープンソース化しました。これは5600億パラメータのMoEモデルで、形式化定理証明言語Lean4を用いた数学的推論タスクに特化しています。モデルの重みはMITライセンスで公開されており、GitHub、Hugging Face、ModelScopeで利用可能です。

このモデルは、形式化推論を三つの独立した能力に分解しています：自動形式化（自然言語の数学問題をLean4の形式的命題に変換）、スケッチ生成（引理風の証明フレームワークの出力）、完全証明生成の三つです。これらの能力はすべて、Agentツールセットを通じて推論（TIR）とLean4コンパイラとリアルタイムで相互作用しながら検証されます。

訓練面では、チームはHybrid-Experts Iteration Frameworkを提案し、コールドスタートデータを生成。強化学習段階ではHisPOアルゴリズムを導入し、MoEモデルの長期的なタスク訓練を安定化させるとともに、定理の一貫性と合法性の検査メカニズムを追加して報酬ハッキングを防止しています。

ベンチマークテストの結果、LongCat-Flash-Proverはオープンソースの重みモデルの中で自動形式化と定理証明の両方で最先端（SOTA）を更新しました。MiniF2F-Testではわずか72回の推論で97.1%の合格率を達成し、ProverBenchとPutnamBenchではそれぞれ70.8%と41.5%を記録。各問題の推論回数は220回を超えません。

原文表示

免責事項：このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

0/400

コメントなし