아날로그 인간의 컴공 되기

2024.01.13· LLM 관련 논문 정리

SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling 10.7B LLM 이 새로 나왔다.한국(Upstage)에서 나오기도 했고 나오자마자 리더보드에서 1위를 차지했기 때문에 정리해본다.https://arxiv.org/pdf/2312.15166.pdf Abstractup-scale LLM 방식에 영향을 받아 depth up scaling 방식 (DUS) 사용하여 크기를 키운 후 pre training 계속한다.MoE와는 다르게 DUS는 train과 inference 에서 복잡하게 바꿀 필요가 없고 더 작은모델로도 더 좋은 성능을 얻음. 2. Depth Up-Scaling성능 저하를 줄이기 위해 위와 같은 s..

VScode 에서 tmux 사용하기

2024.01.03· 머신러닝 이모저모

Tmux란? VScode 를 사용할 때 불편한 점은 VScode 창이 꺼지면 돌려놨던 애들이 다 꺼져버린다는 것이다…. (어제밤에는 너무 가슴이 아파버렸다) (일반 python finetune.py 으로 돌렸을 때) 이를 방지하기위해 백그라운드로 돌리는 프로그램이다. (screen 과 비슷한 시스템이라고 한다. 사실 screen 이 뭔지도 잘 모른다.) 간단한 tmux 명령어 tmux new -s [seesion 이름] 이렇게 tmux 안에 들어가면 기본적으로 bash terminal 과 똑같기 때문에 “conda activate” 로 conda도 할 수 있다. tmux 를 사용하면 터미널 닫아도 새로 터미널 열어서 돌리던 프로세스를 확인할 수 있다. tmux attach -t [session 이름] t..

UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount() 에러 처리

2024.01.03· 머신러닝 이모저모

UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 804: forward compatibility was attempted on non supported HW (Triggered internally at /opt/conda/conda-bld/pytorch_1603729096996/work/c10/cuda/CUDAFunctions.cpp:108.) 나의 경우는 device = torch.device("cuda" if torch...

GPT-2 를 seq2seq 방식으로 학습시키기

2023.12.07· 머신러닝 이모저모

이번 포스팅의 내용은 https://mari970.tistory.com/61 블로그의 내용과 이어진다. dataset 가 source 와 target 으로 이루어져 있을 때 p(y|x) 방식으로 학습시킬 수 있는 방안에 대한 방법론이다. https://github.com/huggingface/transformers/issues/1464 위 링크가 내가 생각했던 문제와 매우 비슷해서 정리한다. (2019 글) 위 issues 에서 화자가 생각하는 question 주제는 모델에 input (”source seq가 포함되어 있는” 이라고 되어있는데, 그건 target 도 같이 넣는다는 의미로 해석) 을 forward 시킬 때 source token 에 대한 loss 는 0 으로 만들어야 하나? 이다. = 이는..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

전체 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역