ghost attention

https://cameronrwolfe.substack.com/p/llama-2-from-the-ground-up LLaMA-2 from the Ground UpEverything you need to know about the best open-source LLM on the market...cameronrwolfe.substack.com블로그가 Llama-2 모델 설명이 매우 잘되있어서 정리한다. LLaMA Model 구조LLaMa-1 와의 차이점LLAMA-1 에 비하면 더 많은 데이터(2 trillion tokens, 40% 더 늘어)로 pre-training 햇고 더 긴 context length (2k -> 4k, 4096) 를 가지고 더 빠른 inference 를 할 수 있도록 하는 구조(GQ..
섬섬옥수수
'ghost attention' 태그의 글 목록