AdaMeZO:GPU メモリにモーメントを保存せずAdam方式でLLMをファインチューニング
AdaMeZOはゼロ次最適化器で、Adamアルゴリズムの利点とMeZOのメモリ効率を組み合わせてLLMをファインチューニングする。前向きパスのみを使用し、MeZOと比較して最大70%のパス数削減を達成しつつ、収束性を改善する。
9 件 — 🟡 6 重要 , 🟢 3 注目
AdaMeZOはゼロ次最適化器で、Adamアルゴリズムの利点とMeZOのメモリ効率を組み合わせてLLMをファインチューニングする。前向きパスのみを使用し、MeZOと比較して最大70%のパス数削減を達成しつつ、収束性を改善する。
BWLAは大型言語モデルの訓練後量子化の新フレームワークで、精度を大幅に損なわずに初めて同時に1ビット重みと低ビット活性化を達成した。Qwen3-32Bモデルでパープレキシティ11.92を実現し、既存手法と比べ推論速度3.26倍を達成した。
AEM(Adaptive Entropy Modulation)は教師なし学習のトレーニング手法で、マルチターン対話全体のエントロピーを動的に変調することで、LLMエージェントの強化学習における探索と活用のバランスを改善する。1.5Bから32Bパラメータのモデルでテストされ、SWE-bench Verifiedベンチマークで最先端ベースラインに統合した際に1.4%の改善を達成する。
学術・産業研究機関から30名の研究者がICML 2026に採択された立場論文を発表し、エージェントAIシステムの制御層はベイズ一貫性を維持すべきと主張した。LLMは不確実性下の意思決定に不適切だが、その上のオーケストレーターは校正された信念を維持しユーティリティ対応ポリシーを使用できると論じた。
Max Planck Institute for Software Systemsなどの研究者が、LLMエージェントのツール呼び出し決定を3つの次元(必要性、効益、コスト許容性)で評価するフレームワークを発表した。6モデル・3タスクでの実験から、モデルが必要と判断するツールと実際の精度向上に寄与するツールの間に大きなギャップがあることが判明し、本番エージェントのコストと信頼性に直接影響する。
研究者たちはLLMエージェントでのツール呼び出しが隠れたコスト——いわゆる「ツール使用税」——を引き起こすことを示した。呼び出しフォーマットとプロトコルオーバーヘッドが原因で生じるコストを、因数分解的介入フレームワークで3つのコンポーネントに分離し、モデルを変更せずに損失を部分的に緩和するG-STEPゲートを導入した。
バージニア工科大学の研究者がARMOR 2025を発表した。戦争法・交戦規則・統合倫理規程に基づきLLMを評価する初の安全性ベンチマークで、519の教義プロンプトを通じて21の商用モデルをテストし、軍事応用における安全性整合の重大な欠陥を明らかにした。
KAISTとNAVER Cloudのチームが、Stable-GFlowNet(S-GFN)を発表した。分配関数Zの推定を排除し、ペア比較で安定学習を実現するLLM自動レッドチーミングの新アプローチ。ICML 2026 Spotlight—採択論文の5%未満—を獲得し、ノイズ報酬でのGFlowNetの慢性的問題である訓練不安定性とモード崩壊を解決する。