NVIDIAが拡散モードと自己回帰モードを備えたAIモデル「Nemotron-Labs-Diffusion」を発表しました。Nemotron-Labs-Diffusionは拡散モードと自己回帰モードを組み合わせることで高速かつ高品質な応答が可能とされ ...
この資料では、VLM(大規模視覚言語モデル)の基礎から、LLM(大規模言語モデル)とVLMの違い、開発ステップや業界・分野での活用事例など、詳細な情報をわかりやすくまとめています。 特に、画像を用いた検索・解析や、画像処理と言語処理を統合したAI ...
最適なAI会社やAIサービスの選定を支援するコンシェルジュサービス「AI Market」を運営するBizTech株式会社(本社:東京都豊島区、代表取締役:森下 佳宏)は、2026年6月2日(火)に開催するAI特化展示会&カンファレンス『AI Market ExCon(エクスコン)2026』に ...
キヤノンITソリューションズ(キヤノンITS)は2025年11月12日、異常監視システム「ANOMALY WATCHER」に、視覚言語モデル(VLM)と連携した異常検知機能を追加した。「人が倒れている状態を検知対象とする」といった自然言語で異常状態のルールを設定できる。
生成AI技術で柔軟性の高い異常監視を実現 「ANOMALY WATCHER」とVLMの連携により新たな検知手法を提供 キヤノンマーケティングジャパングループのキヤノンITソリューションズ株式会社(本社:東京都港区、代表取締役社長:金澤 明、以下キヤノンITS)は、製造 ...
現在、人工知能(AI)の発展は急速に進んでおり、特に視覚情報と言語情報を組み合わせて処理できるVision Language Model(以下、VLM)は、ビジネスに新たな可能性を提供しています。 本記事では、VLMの概要と構造、ビジネス上のインパクトについてご紹介します ...
前回までは「gpt-oss-20b」を使ってテキストデータを用いたLLMの活用方法を解説してきた。テキストデータだけでも十分活用できるが、欲を言えば画像や動画、音声なども取り扱えるようにしたいところだろう。 そんな方に朗報だ。LM Studioではテキストデータ ...
VLM でスーパーマリオをクリアするのはなぜ難しいのかについてまとめました。 1. VLMでスーパーマリオをクリアするのはなぜ難しいのか 最近、VLM(Vision-Language Model)でゲームを攻略できないか、という話題をよく見かけます。画像を見て内容を理解できる ...
ソフトバンクの子会社でAIの研究開発などを手掛けるSB Intuitions(東京都港区)は6月17日、大規模視覚言語モデル(VLM)の基礎などをまとめた資料「大規模視覚言語モデルの開発」を無料公開した。5月に開催した人工知能学会全国大会(JSAI)の講演で使用し ...
Stability AIは11月13日、商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースした。公開中のGoogle Colabページにて試用できる。 「Japanese Stable VLM」は、「Japanese Stable LM Instruct Gamma 7B」をベースとした日本語画像言語モデル。VLMはVision-Language Modelの略 ...
これまでの「ハブ」とは別物です。SwitchBot(スイッチボット)の代表的製品である「ハブ3」「ハブ2」「ハブミニ」。これらは「エアコンやテレビなどの赤外線リモコンを登録して、スマホで操作できるようにするスマートリモコン」という認識の方が ...