전체 글

컴공 AI 개발자가 되기 위한 노역입니다
나는 os.environ["CUDA_VISIBLE_DEVICES"] = '2,3’ 인데 🚫 RuntimeError: module must have its parameters and buffers on device cuda:0 (device_ids[0]) but found one of them on device: cpu 위 에러는 gpu 를 0 번 쓰고 근데 그거도 모자라서 cpu 사용한다고 되어있음. ** 찾아보니 : https://github.com/microsoft/DeepSpeed/issues/3070 [BUG] cannot set gpu 2,3 to train with deepspeed and trainer in huggingface · Issue #3070 · microsoft/DeepSpee..
RuntimeError: CUDA error: device-side assert triggeredCUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.For debugging consider passing CUDA_LAUNCH_BLOCKING=1.Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions. 이거는 GPU 에 코드 돌릴 때 나타나는 에러인데코드가 잘못됬을 때 나타난다고 함..그니까 그냥 구현오류인거,,, https://builtin.com/software-engineerin..
File "/root/.venv/lib/python3.8/site-packages/torch/distributed/rendezvous.py", line 172, in _create_c10d_store return TCPStore(RuntimeError: The server socket has failed to listen on any local network address. The server socket has failed to bind to [::]:29500 (errno: 98 - Address already in use). The server socket has failed to bind to 0.0.0.0:29500 (errno: 98 - Address already in use).[202..
단순한 Softmax 함수는 numerical instability하다. e의 지수연산을 하게 되므로, 쉽게 오버플로 혹은 언더플로가 발생할 수 있다. 예를 들어 [100, 200, 300] (너무 큰 값들의 list)을 soft max function에 단순 계산하게 된다면, overflow가 발생하여,가장 큰 값에만 1에 근사한 값이 들어가고 나머지 class에는 0에 가까운 값이 들어간다. ([0.000..., 0.000..., 1]) 반대로, [1/1000, 1/2000, 1/3000](너무 작은 값들의 list)을 전사한다면,under flow가 발생하여, soft max함수 결과는 각각의 성분에 동일하게(uniform하게) 들어가게 된다. ( [0.33333.., 0.33333..., 0.33..
섬섬옥수수
아날로그 인간의 컴공 되기