🟡 📦 オープンソース 公開日: · 2 分で読めます ·

arXiv:2606.20517:Multi-LCBがLiveCodeBenchを12言語に拡張、24モデルのPython過学習を発見

arXiv:2606.20517 ↗

編集用イラスト:12のプログラミング言語アイコンが中央のパフォーマンス指標を囲む

Multi-LCBはarXiv:2606.20517の論文で説明されるLiveCodeBenchベンチマークの拡張であり、ICLR 2026に採択されました。PythonからプログラミングはLiveCodeBench12言語への拡張テストにより、24の大型言語モデルに有意なPython過学習と言語固有のデータ汚染が発見され、現行モデルの多言語コード生成の限界が明らかになりました。

🤖

この記事はAIにより一次情報源から生成されました。

新しい論文 arXiv:2606.20517 は、人気ベンチマーク LiveCodeBench を Python から 12のプログラミング言語に拡張した Multi-LCB を紹介します。LiveCodeBench は大型言語モデルがタスクに基づいて正しいコードを書く能力を測定するテストですが、これまでの Python への偏りは、モデルが他の言語を本当に理解しているかという問いを未解決のままにしていました。本論文は機械学習の主要学会 ICLR 2026 に採択されました。

発見されたこと

24の大型言語モデルをテストした結果、著者らは2つの問題を特定しました。1つ目は有意なPython過学習——モデルは他の言語よりもPythonで著しく優れた成績を示しており、プログラミングの一般的な理解ではなくトレーニングデータの分布に適応していることが示唆されます。2つ目は言語固有のデータ汚染で、一部のテスト問題はトレーニング中にすでに見られていた可能性があります。

言語間の差異がなぜ重要か

データ汚染はモデルが解を導出するのではなく「記憶」しているため、ベンチマーク結果が過大評価されることを意味します。この差を隠す単一言語テストとは異なり、Multi-LCB は12言語にわたるパフォーマンス比較によってそれを露わにします。実際の結果として、Python のみで評価されたモデルのスコアは、Rust、Go、Kotlin などの言語における実際のコード生成能力を過大評価します。

開発ツールへの示唆

この発見は、Python エコシステム以外で AI アシスタントに依存する開発チームに関連します。Multi-LCB はより公平な多言語指標を提供するオープンリソースとして将来の評価に活用でき、代表性の低い言語でのトレーニング改善が必要な場所をモデルメーカーに明確なシグナルとして伝えます。

よくある質問

Multi-LCBとは何ですか?
Multi-LCBはLiveCodeBenchベンチマークをPythonから12のプログラミング言語に拡張したもので、大型言語モデルの多言語コード生成能力を測定するためのものです。
何モデルをテストしましたか?
著者らは24の大型言語モデルをテストし、有意なPython過学習と言語固有のデータ汚染を発見しました。
論文はどこで発表されましたか?
arXiv:2606.20517はICLR 2026に採択されました。