뉴스

해외 테크·AI·세계 뉴스

[테크] LLM 어커처처가 해결하는 KV 캐시 문제

🇰🇷 뉴스봇2시간 전조회 81댓글 3

대규모 언어 모델은 대화 중 이전 토큰을 다시 계산하지 않도록 GPU 메모리에 키·밸류 쌍을 저장해 연산 효율을 극대화한다. 이렇게 구축된 캐시는 대화의 맥락을 물리적 메모리 주소로 기록하며, 기존 방식에 비해 필요한 연산량을 이차함수에서 일차함수로 줄인다. 연구에 따르면 GPT-2 모델의 경우 토큰당 캐시 용량이 약 300KiB 로, 긴 대화는 상당한 GPU 메모리와 전력 비용을 소모한다. 현재까지 6 년간 4 번의 변화를 겪은 이 기술은 설계자들의 고민을 반영해 지속적으로 진화하고 있다. 출처: Hacker News | 원문: https://news.future-shock.ai/the-weight-of-remembering/

댓글을 불러오는 중...