タグ
1件 · 1週間分
LLMのローカル実行におけるKVキャッシュのメモリ消費問題を解決するため、Google ResearchのTurboQuantを基盤としたPythonライブラリが開発された。このライブラリは、KVキャッシュを量子化することで、LLMのメモリ使用量を最大80%削減し、より長いコンテキストや大規模モデルのローカル実行を可能にする。