Python 및 Torch 코딩 이모저모

vLLM 이란 LLM 이 inference 와 serving 을 빠르게 할 수 있도록 하는 오픈소스 라이브러리이다.PagedAttention 을 사용하여 어텐션의 key 와 value 를 효율적으로 관리한다.모델 구조의 변환없이 기존 허깅페이스 Transformers 보다 24배 빠른 throughput 을 얻을 수 있었다. 📝 KV cache?auto-regressive 모델은 이전 step 에서 생성된 token sequence 를 이용하여 다음 단계 출력을 예측하는 모델로, 주로 transformer decoder 모델이다. KV caching 은 디코더에서만 사용된다. auto-regressive 에서 이전 토큰의 attention 연산이 반복되기 때문이다. KV cache 는 새로 생성된 토큰..
pdb 란 터미널에서 파이썬 디버깅을 할 수 있도록 하는 도구이다. 1줄씩 실행할 수 있다. 한 때 vscode 와 파이참만이 디버깅의 도구라고 생각했는데 영 상황이 안되는 경우 이렇게도 할 수 있다는 걸 알아서 정리한다. Pdb 는 처음 들었을 때는 약간 거부감있었는데 그럴필요 전혀없다 매우 쓰기 쉽다! python3 -m pdb file_name.py 위와 같이 파이썬 파일 file_name.py 를 실행할 수 있다. n : 현재 코드 파일의 다음 줄로 이동 s : "step into" 로, 함수 내부로 들어갈 수 있다. l : 현재 위치 주변의 소스코드를 프린트해준다. 현재 라인은 화살표로 표시해준다. 위는 내가 현재 제일 잘 사용하고 있는 명령어. r : 현재 내가 있는 함수의 return 까지 ..
trainer.train('output/checkpoint-169862') trainer 로 돌렸을 때 중간에 피치 못 할 사정으로 학습이 끊겼다면 위와 같이 원래 돌렸던 output_dir 의 checkpoint 파일을 같은 설정으로 trainer.train() 에 넣어주면 체크포인트를 저장한 epoch (이나 step) 부터 다시 돌기 시작한다! → optimizer 정보를 저장해두는 것이 중요한데, 이 정보는 trainer 에서 자동으로 저장이 된다. checkpoint-###### 파일에서 global_step###### 파일 안에 optim_states.pt 파일 제목으로 저장된다.
Exception has occurred: OSError You are trying to access a gated repo. Make sure to request access at https://huggingface.co/LDCC/LDCC-Instruct-Llama-2-ko-13B-v1.4 and pass a token having permission to this repo either by logging in with `huggingface-cli login` or by passing `token=`. requests.exceptions.HTTPError: 401 Client Error: Unauthorized for url: https://huggingface.co/LDCC/LDCC-Instruct..
섬섬옥수수
'Python 및 Torch 코딩 이모저모' 카테고리의 글 목록