Bit Quantization 을 할때 알아야 할 precision 개념을 알아보자.일단 Bit Quantization 이란 computation 과 메모리 cost를 줄이기 위해 모델의 weight 와 activation 를 표현하는 bit 수를 low-precision 으로 표현하는 방법이다.bit 를 이용해 수를 2진수로 표현한다. Float32일반적으로 모델 학습에 사용되는 부동 소수점 default precision 은 32 이다. 그리고 inference 에서는 속도를 높이기 위해서 사용된다고 한다. Float16fp 는 floating point 라는 뜻이고 bf 는 bfloat 이다.bf16은 주로 인공지능 분야에서 사용하는 단위로 모델 학습시 fp32 와 비교했을때 약 50% 정도 메모리..
전체 글
컴공 AI 개발자가 되기 위한 노역입니다https://cameronrwolfe.substack.com/p/llama-2-from-the-ground-up LLaMA-2 from the Ground UpEverything you need to know about the best open-source LLM on the market...cameronrwolfe.substack.com블로그가 Llama-2 모델 설명이 매우 잘되있어서 정리한다. LLaMA Model 구조LLaMa-1 와의 차이점LLAMA-1 에 비하면 더 많은 데이터(2 trillion tokens, 40% 더 늘어)로 pre-training 햇고 더 긴 context length (2k -> 4k, 4096) 를 가지고 더 빠른 inference 를 할 수 있도록 하는 구조(GQ..
huggingface-cli loginException has occurred: OSErrorYou are trying to access a gated repo.Make sure to request access at https://huggingface.co/LDCC/LDCC-Instruct-Llama-2-ko-13B-v1.4 and pass a token having permission to this repo either by logging in with `huggingface-cli login` or by passing `token=`.requests.exceptions.HTTPError: 401 Client Error: Unauthorized for url: https://huggingface.co..
SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling 10.7B LLM 이 새로 나왔다.한국(Upstage)에서 나오기도 했고 나오자마자 리더보드에서 1위를 차지했기 때문에 정리해본다.https://arxiv.org/pdf/2312.15166.pdf Abstractup-scale LLM 방식에 영향을 받아 depth up scaling 방식 (DUS) 사용하여 크기를 키운 후 pre training 계속한다.MoE와는 다르게 DUS는 train과 inference 에서 복잡하게 바꿀 필요가 없고 더 작은모델로도 더 좋은 성능을 얻음. 2. Depth Up-Scaling성능 저하를 줄이기 위해 위와 같은 s..