#FlashAttention

2 件の記事

SubQ 初のサブ二乗アーキテクチャで1200万トークンを実現

LLMにコンテキストを増やすほど、処理コストが指数的に膨らむ…

オープンソース

CUDA学習を実務に寄せる LeetCUDAの強み

LeetCUDAは、CUDAを「理論だけ」で終わらせず、実装…