NTTが大規模視覚言語モデル(LVLM)の推論根拠を説明できる新手法「根拠強化デコーディング」を開発した。推論時に画像と思考根拠の入力を分離し、それぞれから情報を抽出したうえで、出力直前で統合することにより、画像と思考根拠の両方に基づいた出力が得られ ...