11
6月 2026
テクノロジー
LCLMが16倍圧縮で長文LLMの速度と精度を両立
長文を扱うLLMは、入力が長くなるほどKVキャッシュが膨らみ…
12
5月 2026
AIモデル
Kimi K2.6 コーディング最高峰OSSモデルの実力と使い方
オープンウェイトのコーディングAIが、ついに商用モデルと肩を…
12
5月 2026
テクノロジー
LLM推論を最大8倍速くする Speculative Decodingの仕組み
LLMの応答が1トークンずつしか出てこない——そのボトルネッ…
12
5月 2026
オープンソース
LLM推論を最大8.5倍高速化するDFlash — 品質劣化なし
LLMの推論速度を上げるために、モデルの差し替えや量子化を試…
08
5月 2026
AIモデル
Gemma 4 MTP ドラフターでローカルAIの推論を最大3倍高速化
ローカルでLLMを動かすとき、1トークンごとに処理が止まる遅…
05
5月 2026
テクノロジー
DFlash解説—LLM推論速度を3倍にするブロック拡散の仕組み
AIの推論速度は、サービスのコストと応答性を左右します。これ…
05
5月 2026
AIモデル
Qwen3.6-35B-A3B 3Bコストで73.4%を出すMoEコーディングモデル
ローカルで動くオープンソースモデルが、クラウドAPIの精度に…
04
5月 2026
AIモデル
IBM Granite 4.1 8BモデルでMoEを超える理由
8Bのモデルが32BのMoEアーキテクチャと同等の性能を出せ…
03
5月 2026
オープンソース
vllm-studio入門 4大推論エンジンを1画面で管理するOSS
ローカルLLMを本格運用し始めると、モデルの起動・停止、GP…
01
5月 2026
テクノロジー
LLM開発の実践スタック9選 データ加工から推論配信まで
LLMを自社で開発・運用するとき、モデルだけ選べば終わりでは…