中国Alibabaは3月6日(現地時間)、大規模言語モデル(LLM)「QwQ-32B」を発表した。パラメータ数が320億でありながら、中国DeepSeekのLLM「DeepSeek R1」(パラメータ数6710億)と同等の性能を達成したという。QwQ-32BはApache 2.0ライセンス下で、同社のHugging Face上で ...
DeepSeek R1を用いた蒸留学習により効率よく日本語思考能力を強化 rinna株式会社 (本社:東京都渋谷区/代表取締役:宋 珠憲 ...
Alibaba CloudのAI研究チームであるQwenが、AIモデル「QWQ-32B」を2025年3月6日にリリースしました。320億パラメーターのモデルでありながら6710億パラメーターのDeepSeek-R1と同等の性能を持つとされています。 QwQ-32B: Embracing the Power of Reinforcement Learning | Qwen ...
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
同社はこれまで、日本語のタスクに適したGPT・BERT・HuBERT・CLIP・Stable Diffusionなど、テキスト・音声・画像に関する基盤モデルを公開してきた。2021年4月よりHugging Faceに公開しているrinnaのモデルは累計920万ダウンロード、1200Likesを記録しているという。
日本の大手IT企業であるサイバーエージェントが2025年1月27日、AI開発企業のDeepSeekがリリースしたオープンソースの推論モデル「DeepSeek R1」の蒸留モデルをベースに、日本語データで追加学習を行った大規模言語モデルを公開しました。 【モデル公開のお ...
蒸留モデルはいくつか用意されており、そのうち「DeepSeek-R1 Distill Qwen 7B」や「DeepSeek-R1 Distill Llama 8B」あたりだと、4bit量子化したもので5GB前後となる。メモリ16GBのPCで扱うには頃合いのサイズだ。検索結果から各モデルを選び、右下の[Download]ボタンをクリック。
先週、中国発のAI「DeepSeek-R1」の話をしたところ、マイクロソフトから「DeepSeek-R1」の小型蒸留モデルをNPU(Neural Processing Unit)で動かせるようにしたという話が飛び込んできた。 「マイクロソフトはOpenAIと組んでるんじゃないの?」とか「DeepSeekは問題だらけ ...
サイバーエージェントは1月27日、大規模言語モデル(LLM)「DeepSeek-R1」を使った新たなAIモデルを無料公開した。「DeepSeek-R1 ...
「Rakuten AI 3.0」のプレスリリース(筆者撮影) 楽天グループが3月17日に発表した「Rakuten AI 3.0」が、実際には中国製のDeepSeekをベースにしているとの指摘が相次ぎ、SNSで「炎上」する騒ぎがありました。 当初、楽天はベースモデルについて非開示としていたようですが、後になってDeepSeekであることを認めています。何が問題だったのか、背景を考えてみました。 Ra ...
一部の結果でアクセス不可の可能性があるため、非表示になっています。
アクセス不可の結果を表示する