trainer.train('output/checkpoint-169862') trainer 로 돌렸을 때 중간에 피치 못 할 사정으로 학습이 끊겼다면 위와 같이 원래 돌렸던 output_dir 의 checkpoint 파일을 같은 설정으로 trainer.train() 에 넣어주면 체크포인트를 저장한 epoch (이나 step) 부터 다시 돌기 시작한다! → optimizer 정보를 저장해두는 것이 중요한데, 이 정보는 trainer 에서 자동으로 저장이 된다. checkpoint-###### 파일에서 global_step###### 파일 안에 optim_states.pt 파일 제목으로 저장된다.
Python 및 Torch 코딩 이모저모
huggingface-cli loginException has occurred: OSErrorYou are trying to access a gated repo.Make sure to request access at https://huggingface.co/LDCC/LDCC-Instruct-Llama-2-ko-13B-v1.4 and pass a token having permission to this repo either by logging in with `huggingface-cli login` or by passing `token=`.requests.exceptions.HTTPError: 401 Client Error: Unauthorized for url: https://huggingface.co..
요즘 LLM 이 유행하면서 빠질 수 없는 기술인 Parallelism 에 대해 정리해보도록 하자! 여러 GPU deivce 를 사용하는 Parallelism (병렬화)은 데이터 parallel 과 모델 parallel 로 나뉘어진다.Parallelism 은 여러 GPU 를 사용해서 하나의 학습과정을 더 빨리 끝내거나 모델이 너무 커서 하나의 GPU에 다 올라가지 않을 때 분할학습을 할 수 있도록 하는 기술이다.전자는 Data Parallel 류의 방법을 사용하고 후자의 경우에는 Model Parallel 류의 방법을 사용한다.(실제로 크게 DP MP 로 나뉘고 그 아래 DDP 나 PP, TP 등 advanced 방법이 포함되어있지는 않지만 그냥 이해를 편하게 하기 위해 이렇게 기재하였다) Data Par..
가장 먼저 한 일은 venv 가상환경 만들기. 하지만 기존에 있는 파이썬 버전과 다른 파이썬 버전의 가상환경을 만들어야 했다. (기존 파이썬 버전 3.8.10 / 필요한 파이썬 버전 3.6.11) 하지만 venv 든 virtualenv 든 다른 파이썬 버전의 가상환경을 만들려면 그 버전의 파이썬이 설치되어 있어야 한다. ** 그렇다면 conda 는 왜 자동으로 여러 파이썬 버전에 대해 가상환경을 잘 만들 수 있었나? → 왜냐하면 conda 는 자기가 알아서 그 파이썬을 (만약에 내가 가지고 있지 않다면) 자동으로 깔아주고 그 후에 가상환경을 만들어줘서 그렇다! 파이썬 설치하기 참조 : Python3.6 설치 Dveamer 현실에서 살고 있지만 이상에 대한 꿈을 버리지 못한 몽상가의 홈페이지 입니다. 개인..