🤖 モデル

35 件

🟡 🤖 モデル 2026年4月27日 · 3 分で読めます

arXiv:2604.21764：'Thinking with Reasoning Skills'がACL 2026 Industry Trackでトークン数削減と精度向上を同時に実現

Guangxiang Zhaoらは2026年4月23日にACL 2026 Industry Trackに採択された論文「Thinking with Reasoning Skills: Fewer Tokens, More Accuracy」を発表しました。アプローチは長いchain-of-thought推論から再利用可能な推論スキルを抽出し、新しい問題に対する検索ガイドのショートカットとして使用します。これによりコーディングと数学タスクでトークン数を削減しながら精度を向上させます。

🔴 🤖 モデル 2026年4月24日 · 4 分で読めます

DeepSeekがV4-ProとV4-Flashを発表：100万トークンコンテキストのオープンソースモデル、SWE Verifiedで80.6点

エディトリアルイラスト：DeepSeek V4モデル——100万トークンモジュール

DeepSeekは2026年4月24日、V4-Pro（1.6兆/490億アクティブパラメータ）とV4-Flash（2840億/130億アクティブパラメータ）を発表しました。100万トークンコンテキストに対応する2つのオープンソースモデルです。V4-ProはSWE Verifiedで80.6点を達成し、Opus 4.6に迫る性能を示しながら、メモリ消費を大幅に削減しています。

🔴 🤖 モデル 2026年4月24日 · 3 分で読めます

OpenAI、GPT-5.5を発表：コーディング・調査・ツールを使った複雑なデータ分析向けの最もスマートなモデル

OpenAIは2026年4月23日にGPT-5.5を発表し、「これまでで最もスマートなモデル」と説明しています。プログラミング、調査、ツールを使ったデータ分析などの複雑なタスク向けに設計されています。モデルと同時にSystem Cardと特別なバイオバグバウンティプログラムが公開されました。

🟡 🤖 モデル 2026年4月24日 · 3 分で読めます

Thinking with Reasoning Skills（ACL 2026 Industry Track）：推論スキルの検索でトークン削減・精度向上

Zhaoらの研究チームがACL 2026 Industry Trackで、広範な探索から再利用可能な推論スキルを蒸留する手法を発表しました。モデルがゼロから考える代わりに関連パターンを検索することで、推論トークン数が削減され、コードと数学タスクの精度が向上します。

🟡 🤖 モデル 2026年4月23日 · 3 分で読めます

GoogleがGemini Embedding 2のGA版を発表：5つのモダリティを統一埋め込み空間に対応した初のマルチモーダル埋め込みモデル

Googleはgemini-embedding-2モデルの一般提供（GA）を発表しました。このモデルはテキスト、画像、動画、音声、PDFの5つのモダリティを単一の埋め込みベクトル空間にマッピングします。モデルは2026年3月10日からプレビュー版で提供されており、現在はGemini APIを通じてすべてのユーザーに公開されています。

🟡 🤖 モデル 2026年4月23日 · 2 分で読めます

Microsoft AutoAdapt：30分・4ドルでLLMを専門ドメインに自動適応

Microsoft Researchが、汎用言語モデルを医療・法律・インシデント対応などの専門ドメインに自動適応させるフレームワークAutoAdaptを発表しました。システムはRAGとファインチューニングを自律的に選択し、ハイパーパラメータを最適化して、追加コスト約4ドルで約30分でタスクを完了します。

🟢 🤖 モデル 2026年4月23日 · 3 分で読めます

アップルがICLR 2026でMANZANOを発表——画像理解と生成のトレードオフを解消する統合マルチモーダルモデル

アップルの研究グループはICLR 2026カンファレンスで、画像理解能力と画像生成品質の長年にわたるトレードオフを解決する統合マルチモーダルフレームワーク「MANZANO」を発表しました。このモデルは、理解のための連続的な埋め込みと生成のための離散トークンを生成するハイブリッドビジョントークナイザーを使用し、共有エンコーダと2つの特化アダプターを組み合わせることで、単一モデルが両タスクを担当する際に生じる性能損失を低減します。

🟢 🤖 モデル 2026年4月22日 · 2 分で読めます

MathNet：47カ国から30,676問のオリンピック問題、最新モデルもまだ追いつかず

MITチームがMathNetを発表しました。47カ国17言語から集めた30,676問のオリンピック数学問題のマルチモーダルベンチマークです。Gemini-3.1-Proは78.4%、GPT-5は69.3%を達成し、埋め込みモデルは数学的に同等の問題を見つける際に大きな困難を示します。

🟢 🤖 モデル 2026年4月22日 · 3 分で読めます

xAI音声テキスト変換APIが一般提供開始：25言語に対応しベータを卒業

エディトリアルイラスト：マイクと音波のストリームがGrok APIを通じて25言語の文字起こしに変換される

xAIは音声テキスト変換（STT）APIがベータ段階を経て一般提供（GA）に移行したと発表しました。このサービスは25言語をサポートし、バッチモードとストリーミングモードの両方を提供し、ウェイトリストなしで利用可能です。先行してGAとなったGrok Voice Agent APIと合わせ、音声スタック全体が完成しました。

🔴 🤖 モデル 2026年4月21日 · 4 分で読めます

Claude Opus 4.7とHaiku 4.5がAmazon Bedrockで一般提供開始：27リージョン対応、エンタープライズ向けセルフサービスアクセス

AnthropicはClaude Opus 4.7とHaiku 4.5をAmazon Bedrockで一般提供（GA）に移行しました。両モデルは現在27のAWSリージョンで利用可能で、待機リストなし、標準Messages APIエンドポイント経由でリージョンおよびグローバルルーティングに対応しています。

🟡 🤖 モデル 2026年4月21日 · 3 分で読めます

AnthropicがClaude Haiku 3を本番環境から廃止：4月20日からHaiku 4.5への移行が必須

Editorialna ilustracija: Anthropic povlači Claude Haiku 3 iz produkcije: migracija na Haiku 4.5 obavezna od 20. travnja

Anthropicは2026年4月20日に、Claude Haiku 3（モデルID：claude-3-haiku-20240307）を本番環境から正式に廃止しました。このモデルへのすべてのAPIコールはエラーを返します。推奨移行先はClaude Haiku 4.5で、この措置は2026年2月に発表された廃止サイクルの一部です。

🟢 🤖 モデル 2026年4月21日 · 4 分で読めます

なぜファインチューニングは幻覚を促進するのか？意味表現間の干渉——解決策はSelf-distillation SFT

Editorialna ilustracija: Zašto fine-tuning potiče halucinacije? Interference među semantičkim reprezentacijama, a rješen

新しいArXivの論文は、ファインチューニング後の幻覚増加の原因は能力不足でも行動クローニングでもなく、重複する意味表現間の干渉であることを明らかにしています。解決策：出力分布ドリフトを正則化しファインチューニングを継続学習問題として扱うSelf-distillation SFTです。

🟡 🤖 モデル 2026年4月19日 · 3 分で読めます

YAN：Mixture-of-Experts フローマッチングが3サンプリングステップで自己回帰LMの40倍高速化を実現

YANはTransformerとMambaアーキテクチャをMixture-of-Expertsフローマッチングアプローチと組み合わせた新しい生成言語モデルです。わずか3サンプリングステップで自己回帰モデルに匹敵する品質を達成し、ARベースラインと比べて40倍、拡散型言語モデルと比べて最大1000倍の高速化を実現します。グローバルなトランスポート幾何学をローカル特化ベクトル場に分解します。

🟢 🤖 モデル 2026年4月19日 · 2 分で読めます

IG-Search：情報利得を報酬とすることで検索拡張推論を改善、計算オーバーヘッドはわずか6.4%

IG-Searchは検索拡張推論のAIモデルを訓練する新しいアプローチで、ステップレベルの報酬として情報利得（Information Gain）を使用します。シグナルは外部アノテーションなしにモデル自身の生成確率から導出され、Qwen2.5-3BはこのメソッドでQAベンチマーク7つの平均EMスコア0.430を達成——MR-Searchより1.6ポイント、GiGPOより0.9ポイント上回り、計算オーバーヘッドはわずか6.4%です。

🟢 🤖 モデル 2026年4月19日 · 3 分で読めます

LLMはグラフ上の最短経路を学習できる——しかしタスクの視野が延びると失敗する

新しいarXiv論文は、最短経路問題においてLLMの系統的汎化を2つの次元から検証しています。未見マップへの空間的転移は良好に機能しますが、視野長によるスケーリングは再帰的不安定性のために一貫して失敗します。この結論は自律的エージェントへの直接的な影響を持ちます——訓練データのカバレッジが能力の境界を定義し、RLは安定性を改善しても境界を拡張せず、推論時のスケーリングは役立つが長さスケーリング問題を解決しません。

🟡 🤖 モデル 2026年4月18日 · 3 分で読めます

AWS Nova蒸留によるビデオセマンティック検索：コスト95%削減、推論速度2倍

AWSはモデル蒸留がどのように大型Nova Premierモデルのインテリジェンスをビデオ検索ルーティング用のより小さなNova Microに転送するかを実証しました。結果は推論コストの95%削減、50%低レイテンシ（1741msに対して833ms）、LLM-as-judge評価で品質を維持（5点中4点）です。トレーニング全体でNova Premierから生成された10,000の合成サンプルを使用しました。

🟡 🤖 モデル 2026年4月18日 · 4 分で読めます

AWS Nova マルチモーダル埋め込みによるビデオ検索：ハイブリッドアプローチでリコール率51%から90%へ

AWS Nova マルチモーダル埋め込みは、テキストに変換せずにビデオの視覚・音声・テキストコンテンツを統一された1024次元ベクトル空間で同時に処理する新しいアーキテクチャです。セマンティック埋め込みとBM25語彙検索の組み合わせによりRecall@5が90%となり、ベースラインのcombinedモード埋め込みの51%と比較して——すべての指標で30〜40ポイント向上しました。

🟡 🤖 モデル 2026年4月18日 · 3 分で読めます

NVIDIA Nemotron OCR v2：毎秒34.7ページ、1モデルで5言語対応、PaddleOCRの28倍速

NVIDIAはHuggingFaceでNemotron OCR v2を公開しました。これは単一のA100 GPUで毎秒34.7ページを処理する多言語OCRモデルです。PaddleOCR v5の28倍速です。モデルは単一のアーキテクチャで英語、中国語、日本語、韓国語、ロシア語をサポートし、言語検出は不要です。1,220万枚の合成画像でトレーニングされ、モデルとデータセットはNVIDIA Open ModelライセンスとCC-BY-4.0で提供されています。

🟢 🤖 モデル 2026年4月18日 · 3 分で読めます

ArXiv AC/DC：モデルとタスクの共進化による専門化LLMの自動発見

AC/DCはICLR 2026で発表された新しいフレームワークで、モデルマージングを通じてLLMモデルを、合成データを通じてタスクを同時に進化させます。発見されたモデル群体はベンチマークを明示的に最適化せずに、手動でキュレーションされたモデルより広い専門知識カバレッジを実証します。モデルはより少ないGPUメモリで大きな同等品を上回り、LLMの継続的開発の新しいパラダイムを代表します。

🔴 🤖 モデル 2026年4月17日 · 2 分で読めます

Anthropic：Claude Opus 4.7が高解像度ビジョン・タスクバジェット・新トークナイザーを導入——Opus 4 は引退へ

Claude Opus 4.7はAnthropicの新フラッグシップAIモデルで、Opus 4.6と同価格（入力100万トークンあたり5ドル、出力25ドル）で登場します。最大2576ピクセルの3倍高解像度画像サポート、複雑なエージェントタスク向けの新エフォートレベルxhigh、長いループ内でモデルが自律的にリソースを管理できるタスクバジェット、そして全く新しいトークナイザーを搭載しています。

🟡 🤖 モデル 2026年4月17日 · 3 分で読めます

ArXiv：共形予測がLLMジャッジの隠れた信頼性問題を明らかにする

「LLMジャッジ信頼性の診断」は、LLM-as-judgeシステムの集約信頼性指標が深刻なインスタンスごとの非一貫性を隠していることを示す新しい研究です。推移性違反の全体率は0.8〜4.1%ですが、文書の33〜67%に少なくとも一つの推移性サイクルがあります。この方法は理論的に保証されたカバレッジを持つ共形予測集合に依存しています。

🟡 🤖 モデル 2026年4月17日 · 2 分で読めます

ArXiv：LongCoTベンチマークでGPT 5.2が長いchain-of-thought推論でわずか9.8%と判明

LongCoTは5つのドメインにわたる2,500の専門家設計問題を持つ新しいベンチマークで、数万〜数十万トークンを要する長いchain-of-thought推論能力をテストします。現在のフロンティアモデルはGPT 5.2が9.8%、Gemini 3 Proがわずか6.1%と劇的に低い成績を示し、自律的なAIエージェント展開の重大な弱点が明らかになりました。

🟡 🤖 モデル 2026年4月17日 · 2 分で読めます

Google Research：AIが合成ニューロンを生成し、脳マッピングで157人年分の工数を節約

Google ResearchはPointInfinity点群フローマッチングモデルを使用するMoGenシステムを開発しました。専門家の評価では本物と区別がつかない合成ニューロン形態を生成します。トレーニングに合成データを10%加えるだけでエラー率が4.4%低下し、完全なマウス脳マッピングでは157人年分の手作業に相当する節約になります。

🟡 🤖 モデル 2026年4月17日 · 3 分で読めます

Google Simula：サンプルごとの最適化ではなくメカニズム設計としてのデータ合成

SimulaはGoogleのフレームワークで、合成データ生成を個別サンプルの問題ではなくメカニズム設計の問題として扱います。システムは推論モデルを使用して階層的な分類体系を構築し、データ生成の四つの独立した軸を制御します。すでに本番稼働中で、Gemini安全分類器、MedGemma、Androidの詐欺検出、Google Messagesのスパムフィルタリングを動かしています。

🟡 🤖 モデル 2026年4月17日 · 2 分で読めます

OpenAI：GPT-Rosalind——ライフサイエンス専門の初のフロンティア推論モデル

GPT-Rosalindは、創薬・ゲノム解析・タンパク質推論を含む生命科学研究に特化したOpenAIの新フロンティア推論モデルです。サイバーセキュリティ向けGPT-5.4-Cyberに続く特化型AIシステムのトレンドを継続しており、OpenAIが主要産業向けに垂直最適化モデルを構築するという戦略的決断を示しています。

🟡 🤖 モデル 2026年4月16日 · 2 分で読めます

Google：Gemini 3.1 Flash TTSが70以上の言語に表現力豊かなAI音声をもたらす

GoogleはGemini 3.1 Flash TTSを発表しました。70以上の言語に対応した新しいテキスト読み上げモデルで、Artificial Analysisのランキングで1,211のEloスコアを達成しています。主要なイノベーションはオーディオタグ——声、イントネーション、感情を精密に制御するために自然言語コマンドをテキストに直接埋め込む機能です。モデルはGoogle AI Studio、Vertex AI、Google Vidsで利用可能で、AI生成音声の検出のためのSynthIDウォーターマーキングを搭載しています。

🟢 🤖 モデル 2026年4月16日 · 2 分で読めます

ArXiv：LLMにおける数値不安定性——浮動小数点誤差がトランスフォーマーに混乱をもたらす仕組み

新しい研究が、浮動小数点演算の丸め誤差がトランスフォーマーアーキテクチャの層を通じていかに混乱を伝播させるかを厳密に分析しています。この研究は三つの動作モード——安定、混乱、シグナル支配——を特定し、数値不安定性はバグではなくLLMの根本的な特性であり、本番システムの再現性を脅かすことを証明しています。

🔴 🤖 モデル 2026年4月15日 · 1 分で読めます

Anthropic: Claude Sonnet 4とOpus 4が6月15日に廃止へ

Anthropicがオリジナル版のClaude Sonnet 4およびClaude Opus 4の廃止を発表。両モデルは2026年6月15日にAPIから撤去される。開発チームは速やかに4.6バージョンへの移行が必要。

🟡 🤖 モデル 2026年4月15日 · 2 分で読めます

ArXiv：大規模言語モデルが有害な回答を生成する原因となるニューロンを特定

LLM内部メカニズムの因果分析により、有害コンテンツがモデルの後半層で、主にMLPブロックを通じて生成されることが明らかになりました。最終層の少数のニューロンが有害な回答の制御メカニズムとして機能しています。

🟡 🤖 モデル 2026年4月15日 · 1 分で読めます

Google: Gemini Robotics-ER 1.6が計器読み取りと空間理解能力を搭載

GoogleがGemini Robotics-ER 1.6を発表。新たな計器読み取り能力と改善された空間・物理理解を搭載。前バージョン1.5は4月30日に廃止される。

🟡 🤖 モデル 2026年4月14日 · 2 分で読めます

ArXiv：Process Reward Agents——リアルタイムフィードバックで再トレーニングなしにAIの医療推論を改善

研究者がProcess Reward Agents（PRA）を発表しました。医療分野でのAI推論中にステップごとのリアルタイムフィードバックを提供する新しいアプローチです。既存のモデルに再トレーニングなしで適用でき、医療ベンチマークで顕著な成果を上げています。

🟡 🤖 モデル 2026年4月13日 · 1 分で読めます

ArXiv PRA：4Bモデルが医療ベンチマークで80.8%を達成——小規模モデルの新SOTA

Process Reward Agentsにより、小規模の凍結モデル（0.5B〜8B）が一切の訓練なしで医療推論を大幅に改善できる——Qwen3-4BがMedQAで80.8%の新たなstate-of-the-artを達成。

🟡 🤖 モデル 2026年4月13日 · 2 分で読めます

ArXiv SPPO：シーケンスレベルPPOが長い推論チェーンにおけるクレジット割り当て問題を解決

Sequence-Level PPOはLLM推論をコンテキストバンディット問題として再定式化し、マルチサンプリングなしでGRPOなどの高コストなグループ手法と同等のパフォーマンスを劇的に少ないリソースで達成する。

🟡 🤖 モデル 2026年4月11日 · 2 分で読めます

ArXiv SUPERNOVA：自然命令での強化学習により推論能力が52.8%向上

新しい論文SUPERNOVAは、既存の指示チューニングデータセットの体系的なキュレーションが、LLMの推論能力を大幅に向上させることができることを示しています。SUPERNOVAで訓練されたモデルは、BBEHベンチマークで最大52.8%の相対的な改善を達成しました。

🟢 🤖 モデル 2026年4月10日 · 2 分で読めます

Sentence Transformers v5.4がマルチモーダル埋め込みおよびリランカーモデルのサポートを追加

HuggingFaceのSentence TransformersライブラリはバージョンM5.4を取得し、マルチモーダル埋め込みおよびリランカーモデルを導入しました。ユーザーはテキスト、画像、オーディオ、ビデオを共通の埋め込み空間にマッピングし、クロスモーダル類似性を計算できるようになりました — 異なるタイプのコンテンツ検索の統合です。