나는 os.environ["CUDA_VISIBLE_DEVICES"] = '2,3’ 인데
🚫 RuntimeError: module must have its parameters and buffers on device cuda:0 (device_ids[0]) but found one of them on device: cpu
위 에러는 gpu 를 0 번 쓰고 근데 그거도 모자라서 cpu 사용한다고 되어있음.
** 찾아보니 : https://github.com/microsoft/DeepSpeed/issues/3070
아래와 같이 DeepSpeed launcher (터미널에서 deepspeed 명령어를 사용하여 실행) 를 사용하면 CUDA_VISIBLE_DEVICES 를 사용해봣자 의미가 없다고 한다.
자동으로 gpu 0, 1 부터 사용한다.
deepspeed --num_nodes=1 --num_gpus=2 dscoder_train.py --deepspeed config_deepspeed.json
위의 깃허브 이슈에서 시키는 대로 해보면,
deepspeed --num_nodes=1 --num_gpus=2 --include localhost:2,3 dscoder_train.py --deepspeed config_deepspeed.json
이런식으로 사용하면 아래와 같은 에러가 뜬다.
🚫 ValueError: Cannot specify num_nodes/gpus with include/exclude
그래서 --num_nodes 와--num_gpus 빼고 쓰면 워하는 gpu 의 메모리를 사용하는 것을 알 수 있다.
'Python 및 Torch 코딩 이모저모' 카테고리의 다른 글
device-side assert triggered error (0) | 2024.11.26 |
---|---|
RuntimeError: The server socket has failed to listen on any local network address. (1) | 2024.11.20 |
HuggingFace login 에러 (0) | 2024.11.17 |
git 사용법 5 (0) | 2024.11.15 |
git 이용법 4 (0) | 2024.11.14 |