trainer.train('output/checkpoint-169862')
trainer 로 돌렸을 때 중간에 피치 못 할 사정으로 학습이 끊겼다면
위와 같이 원래 돌렸던 output_dir 의 checkpoint 파일을 같은 설정으로 trainer.train() 에 넣어주면 체크포인트를 저장한 epoch (이나 step) 부터 다시 돌기 시작한다!
→ optimizer 정보를 저장해두는 것이 중요한데, 이 정보는 trainer 에서 자동으로 저장이 된다.
checkpoint-###### 파일에서 global_step###### 파일 안에 optim_states.pt 파일 제목으로 저장된다.
'Python 및 Torch 코딩 이모저모' 카테고리의 다른 글
vLLM (0) | 2024.05.19 |
---|---|
Pdb 디버깅 (0) | 2024.03.09 |
HuggingFace OSError: You are trying to access a gated repo.Make sure to request access at 에러 (0) | 2024.01.24 |
Parallelism (0) | 2023.11.07 |
리눅스에 파이썬 새로운 버전 설치하기! (0) | 2023.10.25 |