Roformer: Enhanced Transformer with Rotary Positon Embedding https://arxiv.org/pdf/2104.09864.pdf 에서 처음 제안된 방법이다. Abstract 기존의 PE 는 트랜스포머에서 제안된 방법으로, 시퀀스 내의 토큰을 attention 만으로는 순서 정보를 줄 수 없어서 사용한 효과적인 방법. 이후 다양한 PE 방법이 나왔는데, 이 논문에서는 새로운 Rotary Position Embedding(RoPE) 제안한다. RoPE 는 rotation 행렬을 이용하여 절대 위치를 인코딩하고, self-attention 식에서 relative position dependency (상대 위치 의존성) 정보를 더해준다. 이를 통해 long text..
전체 글
컴공 AI 개발자가 되기 위한 노역입니다기존 논문에서 나온 RoPE interpolation (혹은 extrapolation) 과 다른 방법으로, 기존 방법이 linear 방법이라면, 지금 소개하는 방법은 dynamic interpolation 이다. Qwen-7B 등 다양한 LLM 모델에서 적용되고 있고, Huggingface 에서도 구현해놓았다. 기본적으로 RoPE 로 학습된 모델만 있다면 evaluation 에서 적용하는 것이 어렵지 않기 때문에 많이 이용한다. Reddit 에서 처음 소개된 방법이다. https://www.reddit.com/r/LocalLLaMA/comments/14lz7j5/ntkaware_scaled_rope_allows_llama_models_to_have/ From the LocalLLaMA community ..
Previous 연구 정리 unipelt : a unified framework for parameter-efficient language model tuning 소개영상에서 가져옴. (UNIPELT 는 일단정리안함) 출처 : https://www.youtube.com/watch?v=Cmtvh_2MtGg&t=1612s pelt : adapter, LoRA, prefix learning = language modeling 이 어떻게 효율적으로 fine-tuning 하는가에 대해 해결하기 위해 trainable parameter 수를 (많이) 줄이는 방법론. PELT 는 위 3가지 방법 (Adapter, LoRA, Prefix Learning) 을 모두 사용하는 방법이다. 이 방법들은 항상 pre-train..
위키 피디아의 Bayes' theorem 정리 Pr(A) : 사건 A 의 Prior 사전 확률, 사건 B에 대해 아무 정보가 없음을 의미 Pr(B) : 사건 B 의 Prior 사전 확률 Pr(A|B) : B의 값이 주어졌을 때 A의 Posterior 사후 확률 Pr(B|A) : likelihood **** Potsterior 와 Likelihood 는 식에서의 위치에 따라 값이 달라질 수 있다.** 딥러닝에서의 Bayes’ Rule 보통 딥러닝에서 Potsterior 는 구하고싶은 값으로 사용되고 Likelihood 는 Loss (NLL, MLE) 로 사용된다. 주어진 입력이 x 이고, 모델 파라미터를 w 라고 할때 데이터 x에 대한 predicted y 값을 잘 예측하도록 모델 파라미터를 학습시키고 싶..