#vLLM

13 件の記事

11
6月 2026
テクノロジー

LCLMが16倍圧縮で長文LLMの速度と精度を両立

長文を扱うLLMは、入力が長くなるほどKVキャッシュが膨らみ…

12
5月 2026
AIモデル

Kimi K2.6 コーディング最高峰OSSモデルの実力と使い方

オープンウェイトのコーディングAIが、ついに商用モデルと肩を…

12
5月 2026
テクノロジー

LLM推論を最大8倍速くする Speculative Decodingの仕組み

LLMの応答が1トークンずつしか出てこない——そのボトルネッ…

12
5月 2026
オープンソース

LLM推論を最大8.5倍高速化するDFlash — 品質劣化なし

LLMの推論速度を上げるために、モデルの差し替えや量子化を試…

08
5月 2026
AIモデル

Gemma 4 MTP ドラフターでローカルAIの推論を最大3倍高速化

ローカルでLLMを動かすとき、1トークンごとに処理が止まる遅…

05
5月 2026
テクノロジー

DFlash解説—LLM推論速度を3倍にするブロック拡散の仕組み

AIの推論速度は、サービスのコストと応答性を左右します。これ…

05
5月 2026
AIモデル

Qwen3.6-35B-A3B 3Bコストで73.4%を出すMoEコーディングモデル

ローカルで動くオープンソースモデルが、クラウドAPIの精度に…

04
5月 2026
AIモデル

IBM Granite 4.1 8BモデルでMoEを超える理由

8Bのモデルが32BのMoEアーキテクチャと同等の性能を出せ…

03
5月 2026
オープンソース

vllm-studio入門 4大推論エンジンを1画面で管理するOSS

ローカルLLMを本格運用し始めると、モデルの起動・停止、GP…

01
5月 2026
テクノロジー

LLM開発の実践スタック9選 データ加工から推論配信まで

LLMを自社で開発・運用するとき、モデルだけ選べば終わりでは…