GoogleがGemini Embedding 2のGA版を発表:5つのモダリティを統一埋め込み空間に対応した初のマルチモーダル埋め込みモデル
Googleはgemini-embedding-2モデルの一般提供(GA)を発表しました。このモデルはテキスト、画像、動画、音声、PDFの5つのモダリティを単一の埋め込みベクトル空間にマッピングします。モデルは2026年3月10日からプレビュー版で提供されており、現在はGemini APIを通じてすべてのユーザーに公開されています。
20 件 — 🔴 2 重大 , 🟡 12 重要 , 🟢 6 注目
Googleはgemini-embedding-2モデルの一般提供(GA)を発表しました。このモデルはテキスト、画像、動画、音声、PDFの5つのモダリティを単一の埋め込みベクトル空間にマッピングします。モデルは2026年3月10日からプレビュー版で提供されており、現在はGemini APIを通じてすべてのユーザーに公開されています。
Microsoft Researchが、汎用言語モデルを医療・法律・インシデント対応などの専門ドメインに自動適応させるフレームワークAutoAdaptを発表しました。システムはRAGとファインチューニングを自律的に選択し、ハイパーパラメータを最適化して、追加コスト約4ドルで約30分でタスクを完了します。
アップルの研究グループはICLR 2026カンファレンスで、画像理解能力と画像生成品質の長年にわたるトレードオフを解決する統合マルチモーダルフレームワーク「MANZANO」を発表しました。このモデルは、理解のための連続的な埋め込みと生成のための離散トークンを生成するハイブリッドビジョントークナイザーを使用し、共有エンコーダと2つの特化アダプターを組み合わせることで、単一モデルが両タスクを担当する際に生じる性能損失を低減します。
Appleは今週リオデジャネイロで開催されているICLR 2026カンファレンスで5本の機械学習研究論文を発表しました。最注目はParaRNN——非線形リカレントニューラルネットワークの並列学習を可能にする手法で、逐次的アプローチと比べて665倍の高速化を達成し、RNNを数十億パラメータ規模に拡張してTransformerと競合できるようにします。
Linux Foundation AI & Dataは、9つの責任あるAIの次元を通じてRGAF(Responsible Generative AI Framework)を実装する方法を示す実践ガイドを公開しました。35の具体的なオープンソースツールのカタログとNIST AI RMF、EU AI法、ISO/IEC 42001、OECD原則への準拠が含まれています。
Google DeepMindは、現在組織の25%しかAIを本番環境に実装できていないという現状を打開するため、世界トップ5のコンサルティングファーム——アクセンチュア、ベイン、BCG、デロイト、マッキンゼー——とパートナーシップを締結し、エンタープライズAIトランスフォーメーションを加速させます。
OpenAIはWorkspace Agentsを発表しました。ChatGPTインターフェースに直接統合されたCodex駆動のAIエージェントです。エージェントはクラウドで実行され、複雑なワークフローを自動化し、クロスアプリセキュリティを重視した接続ツールを通じてエンタープライズチームの作業スケールを支援します。
AWSは、Amazon Bedrock、NeptuneグラフDBおよびMem0フレームワークを組み合わせて、企業全体のAIエージェントに永続的なメモリを提供するアーキテクチャを公開しました。これはセッション間およびユーザー間でのコンテキスト損失という問題を解決するものです。
Amazonは、Bedrock AgentCore向けのマネージドエージェントハーネスを発表しました。これによりオーケストレーションインフラを自分で書くことなく、わずか3つのAPI呼び出しで完全に動作するエージェントを展開できます。ハーネスには開発ライフサイクル全体をカバーするAgentCore CLIと、コーディングアシスタント向けプレビルドスキルが付属しており、4つのAWSリージョンでプレビュー段階で利用できます。
ArXivで「SWE-chat」が公開されました。これは、本番環境でAIコーディングエージェントとユーザーが行った実際のいわゆる「ワイルド」なやり取りのデータセットです。GitHubのIssueベースの合成ベンチマークではなく、このデータセットは開発者が日常業務において自律型システムを実際に使用する方法——何を要求するか、エージェントの提案にどう反応するか、エージェントがどこで失敗するか——を記録しており、より精密な評価とエージェント設計の的を絞った改善への道を開きます。
新しい研究により、一度タスクを成功裏に実行したコンピュータ操作AIエージェントが、同一タスクの繰り返し試行で失敗する可能性があることが明らかになりました。主な原因は、実行の確率的性質、タスク仕様の曖昧さ、エージェント自体の行動のばらつきという3つです。
NVIDIAとGoogle CloudはNVIDIAのGPUインフラとGoogle Cloudプラットフォームを組み合わせ、ロボティクス、自律型システム、エージェントの分野でエージェンティックAIとフィジカルAIのワークロードを加速する共同協力を発表しました。
NVIDIAとHuggingFaceは、Gemma 4がNVIDIA Jetson Orin Nano Super(8GBメモリ)上でVision Language Agent(VLA)として完全にローカルで動作するデモを披露しました。カメラ使用の自律判断から音声認識とTTSを含む完全なパイプライン処理まで、クラウド依存なしにすべてが実行されます。
AWSの機械学習ブログでは、NVIDIAのオープンソースモデルParakeet-TDT-0.6B-v3をクラウドで低コストの多言語音声文字起こしに使用する方法が解説されています。このモデルは自動検出付きで25のヨーロッパ言語をカバーし、AWS Batchとの組み合わせでSpotインスタンスでは1分あたりわずか0.00005ドル、オンデマンドg6.xlarge GPUでは0.00011ドルで処理できます。スケールゼロポリシーと、バッファリングされたストリーミングによる10時間以上の音声録音の処理にも対応しています。
Amazon SageMaker AIが、NVIDIA AIPerf ツールを使って様々なGPU設定で生成AIモデルを自動的にベンチマークする機能に対応しました。数週間にわたる手動テストを排除し、コスト・レイテンシ・スループットでランク付けされた推奨設定を提供します。
GitHubは、Copilot BusinessおよびEnterpriseユーザーがVS CodeでAnthropicやGoogle、OpenAI、OpenRouter、Azureなどの主要プロバイダーの独自APIキーを持ち込めるようにしました。BYOKモデルはCopilot Chatやカスタムエージェント内で機能し、料金は選択したプロバイダーに直接請求され、Copilotのクォータは消費されません。
GitHubはAtlassianのJira向けCopilotクラウドエージェントの最新アップグレードで、AIとプロジェクト管理の統合を大幅に深める機能を発表しました。タスク追跡システムとしてJiraを使用するチームは、カスタムエージェントの定義、ルールでのAtlassianカスタムフィールドの使用、スペース別のカスタムブランチルールの設定、Jira内でのコードレビューリクエスト通知の受信が可能になり、GitHubとプロジェクト管理ツール間の開発フローを連結します。
OpenAIは、米国の認定医師、看護師、薬剤師に無料のChatGPTアクセスを提供するプログラムを開始しました。プログラムは臨床文書作成、患者ケアのワークフロー、医学研究に重点を置き、米国医療機関との提携を通じた認証が行われます。