なぜその結果になったのか？推論根拠を説明できるマルチモーダルXAI技術を確立

プレスリリース要約

NTTは、画像と言語を扱うマルチモーダルAIの信頼性を高める新技術「根拠強化デコーディング」を確立しました。従来のAIは、提示した「推論の根拠」を無視して回答を出力する課題がありましたが、本技術は追加学習なしで根拠と回答の一貫性を保証します。ビジネスの意思決定やAI連携における信頼性向上への貢献が期待されます。

NTTが開発した「根拠強化デコーディング」は、大規模視覚言語モデル（LVLM）が段階的に思考するプロセス（CoT）において、自身が生成した推論根拠と最終的な回答が矛盾してしまう重大な課題を解決する技術です。従来のLVLMでは、推論の根拠を無視して回答を導き出す「ブラックボックス化」が起きていましたが、新技術では画像情報と根拠情報を分離して処理し、双方を最適に組み合わせて出力します。これにより、AIの回答プロセスにおける「説明可能性（XAI）」が飛躍的に向上します。

本技術の最大の特徴は、追加の訓練データやコストのかかる再学習を必要としない「プラグアンドプレイ型」の実装が可能である点です。数理的なアプローチにより、モデルが出力する確率分布（ロジット）の重み付き和を計算するだけで、既存のあらゆるLVLMに組み込むことができます。実験では、様々なモデルで推論性能（正答率）が大幅に向上したほか、より高品質な根拠を与えるほど推論精度がさらに向上することが実証されました。本成果は最難関国際会議「CVPR 2026」にて発表されます。