분류 전체보기

vLLM 이란 LLM 이 inference 와 serving 을 빠르게 할 수 있도록 하는 오픈소스 라이브러리이다.PagedAttention 을 사용하여 어텐션의 key 와 value 를 효율적으로 관리한다.모델 구조의 변환없이 기존 허깅페이스 Transformers 보다 24배 빠른 throughput 을 얻을 수 있었다. 📝 KV cache?auto-regressive 모델은 이전 step 에서 생성된 token sequence 를 이용하여 다음 단계 출력을 예측하는 모델로, 주로 transformer decoder 모델이다. KV caching 은 디코더에서만 사용된다. auto-regressive 에서 이전 토큰의 attention 연산이 반복되기 때문이다. KV cache 는 새로 생성된 토큰..
Abstract 및 IntroductionLoRA 의 단점은 FT(full fine tuning) 과 비교해서 accuracy gap 이 있다는 것이다.LoRA 와 FT 의 learning capacity 가 차이가 난다는 것인데,이 이유를 weight decomposition analysis 를 제안하고 이를 통해 업데이트 패턴이 LoRA 와 FT 가 다르다는 점을 밝힌다.DoRA 는 weight decomposition 을 통해 LoRA 의 장점인 inference latency overhead 가 없다는 점을 유지하면서 FT 의 성능을 능가할 수 있다.실험결과에 따르면 commonsense reasoning (+3.4/+1.0 on LLaMA-7B/13B), 과 visual instruction t..
Auto-regressive 모델이 output 을 생성하도록 하는 디코딩 방식에는 여러가지가 있다. 이런 방법을 잘 사용하면 같은 모델로도 더 좋은 문장을 생성할 수 있다. Auto-regressive 모델은 위와 같은 conditional 확률분포를 가지고 token 을 생성한다. T 현재 문장 길이를 의미하고 W_0 는 initial context word sequence 이다. Auto regressive model 의 디코딩 방법 1. Greedy search 가장 기본적으로 토큰을 선택하는 방법으로, 모델이 생성한 logit에서 가장 확률이 높은 토큰을 output으로 뽑는 방법이다. 2. Beam search 위 그림은 beam_size = 2로 설정하였을 때의 그림이다. 위 그림대로 설명하..
pdb 란 터미널에서 파이썬 디버깅을 할 수 있도록 하는 도구이다. 1줄씩 실행할 수 있다. 한 때 vscode 와 파이참만이 디버깅의 도구라고 생각했는데 영 상황이 안되는 경우 이렇게도 할 수 있다는 걸 알아서 정리한다. Pdb 는 처음 들었을 때는 약간 거부감있었는데 그럴필요 전혀없다 매우 쓰기 쉽다! python3 -m pdb file_name.py 위와 같이 파이썬 파일 file_name.py 를 실행할 수 있다. n : 현재 코드 파일의 다음 줄로 이동 s : "step into" 로, 함수 내부로 들어갈 수 있다. l : 현재 위치 주변의 소스코드를 프린트해준다. 현재 라인은 화살표로 표시해준다. 위는 내가 현재 제일 잘 사용하고 있는 명령어. r : 현재 내가 있는 함수의 return 까지 ..
섬섬옥수수
'분류 전체보기' 카테고리의 글 목록 (8 Page)