推論 - 検索 News

23 時間

AIのコストが経営テーマに NVIDIAが狙う“推論の王国”と継続課金型 ...

米SemiAnalysis（セミアナリシス）は3月24日「Nvidia - The Inference Kingdom Expands」と題したレポートを公開した。米NVIDIAが推論の王国を拡大しているという意味だ。

2 日

AIの利益は誰が吸い上げるのか？ NVIDIAが築く“推論の王国”と ...

背景にあるのは、リーズニングモデルとエージェントの普及だ。従来の生成AIは、入力に対して比較的短時間で応答を返す「軽い推論」が中心だった。ところが近年のモデルは、答えを出す前に長く考え、必要に応じて検索し、試行錯誤を繰り返すようになっている。1回の問 ...

4 日

AI推論コスト最大70%削減──「アダプティブ・ルーティング」で200 ...

FlashLabs株式会社(本社:東京都千代田区、代表取締役:細井洋一、以下「FlashLabs」)は、次世代AIインフラを開発する研究機関Continuum ...

Forbes JAPAN

AI競争の主戦場が「モデル開発」から「推論コスト」へシフト

過去3年間、AI業界はモデル構築とトレーニング競争に明け暮れてきた。これは、より大規模なモデル、より大規模なクラスター、より多くの計算能力を意味し、膨大なデータ、計算能力、予算を必要とした。この競争は主に、過去数十年で最大のIT変革における ...

Forbes JAPAN

AIが日常になる時代、「推論」需要の拡大で投資テーマはGPUからCPU ...

この2年間、人工知能（AI）関連の投資テーマは、1つの中心的な賭けを軸に回ってきた。すなわち、より大規模なモデルを学習させるために、企業ははるかに大きな計算能力を必要とするという見立てだ。その結果、GPU、すなわちグラフィックス処理装置（G ...

JBpress

グーグルAI半導体、「推論」重視へ転換垂直統合モデルで挑む次 ...

2026年4月下旬、米グーグルが発表した第8世代の独自AI半導体「TPU（テンソル・プロセッシング・ユニット）」は、AIインフラの主戦場が「推論」へと決定的に移ったことを物語る、象徴的な一手となった。学習用の「TPU 8t」と推論用の「TPU 8i ...

IT Leaders

NTT、1GPUで推論動作可能な軽量LLM「tsuzumi」を発表、2024年3月に商用化

NTTは2023年11月1日、大規模言語モデル「tsuzumi（つづみ）」を発表した。6億パラメータの超軽量版（CPUで推論動作可能）と、70億パラメータの軽量版（1GPUで推論動作可能）の2種類のLLMを開発した。日本語と英語を扱え、特に日本語処理能力が高いのが特徴。

4 日

「韓国版NVIDIA」フュリオサAI始動推論特化の低コスト半導体

【ソウル=松浦奈美】韓国のスタートアップ、フュリオサAIの開発した人工知能（AI）向け半導体が商用化の緒に就いた。データセンター向け市場を牛耳る米エヌビディア製品に匹敵する高性能をうたう。韓国の政府や大企業を後ろ盾に、シェア奪取を狙う。HBM連携のNPU実用化、世界で2社のみ「データセンターに本当に必要なチップができた」。フュリオサが4月に開いた説明会で、創業者の白埈昊（ペク・ジュンホ）社長 ...

2 日

OrcaRouter、Alibaba Qwen 3.7 Max API をサポート開始～エンタープライズAI ...

長文コンテキスト処理と高度な推論が必要なエンタープライズ自動化タスクに対応。DeepSeek V4 Pro、Claude Opus 4.7、GPT 5.5と並行利用で、品質を保ってLLM支出約40%減 FlashLabs株式会社（本社：東京都千代田区 ...

Security NEXT

推論サーバ「NVIDIA Triton Inference Server」に複数脆弱性

NVIDIAは現地時間2026年5月19日、セキュリティアドバイザリを公開し、CVEベースで8件の脆弱性を明らかにしたもの。脆弱性によって対象プラットフォームが異なるが、「Linux」「DALI Backend」が影響を受ける。「CVE-2026-24207」は、認証を回避される脆弱性。コードの実行や権限昇格、データの改ざん、サービス拒否、情報漏洩などにつながるおそれがある。