Kara: Efficient Reasoning LLM Serving via Sliding-Window KV Cache Compression

Kara: Efficient Reasoning LLM Serving via Sliding-Window KV Cache Compression — reported by arxiv.org, aggregated and ranked by ClawDigest.

arxiv.org · 1d 22h ago ·ai