RuntimeError: CUDA error: device-side assert triggered
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.
이거는 GPU 에 코드 돌릴 때 나타나는 에러인데
코드가 잘못됬을 때 나타난다고 함..그니까 그냥 구현오류인거,,,
https://builtin.com/software-engineering-perspectives/cuda-error-device-side-assert-triggered
이 에러는 보통
- 모델의 output 과 label 개수가 차이날때
- loss function 이 잘못됬을때
생기는 문제라고 한다.
하지만 그냥 저렇게 떡하니 문제만 나올뿐 어디가 어떻게 문제인지는 말 안해준다.
그럴때는
dmesg
이 명령어를 사용하면 숨겨진 오류가 나온다고 한다.
'Python 및 Torch 코딩 이모저모' 카테고리의 다른 글
Deepspeed 에서 GPU 를 잘못 사용할 때 해결법 (0) | 2024.12.01 |
---|---|
RuntimeError: The server socket has failed to listen on any local network address. (1) | 2024.11.20 |
HuggingFace login 에러 (0) | 2024.11.17 |
git 사용법 5 (0) | 2024.11.15 |
git 이용법 4 (0) | 2024.11.14 |