#SGLang

3 件の記事

オープンソース

LLM推論を最大8.5倍高速化するDFlash — 品質劣化なし

LLMの推論速度を上げるために、モデルの差し替えや量子化を試…

オープンソース

vllm-studio入門 4大推論エンジンを1画面で管理するOSS

ローカルLLMを本格運用し始めると、モデルの起動・停止、GP…

テクノロジー

LLM推論のGPU効率が2倍に　分散アーキテクチャの仕組みと実例

LLM推論のインフラコストを、GPUを追加せずに削減する手法…