Tmux란? VScode 를 사용할 때 불편한 점은 VScode 창이 꺼지면 돌려놨던 애들이 다 꺼져버린다는 것이다…. (어제밤에는 너무 가슴이 아파버렸다) (일반 python finetune.py 으로 돌렸을 때) 이를 방지하기위해 백그라운드로 돌리는 프로그램이다. (screen 과 비슷한 시스템이라고 한다. 사실 screen 이 뭔지도 잘 모른다.) 간단한 tmux 명령어 tmux new -s [seesion 이름] 이렇게 tmux 안에 들어가면 기본적으로 bash terminal 과 똑같기 때문에 “conda activate” 로 conda도 할 수 있다. tmux 를 사용하면 터미널 닫아도 새로 터미널 열어서 돌리던 프로세스를 확인할 수 있다. tmux attach -t [session 이름] t..
전체 글
컴공 AI 개발자가 되기 위한 노역입니다UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 804: forward compatibility was attempted on non supported HW (Triggered internally at /opt/conda/conda-bld/pytorch_1603729096996/work/c10/cuda/CUDAFunctions.cpp:108.) 나의 경우는 device = torch.device("cuda" if torch...
이번 포스팅의 내용은 https://mari970.tistory.com/61 블로그의 내용과 이어진다. dataset 가 source 와 target 으로 이루어져 있을 때 p(y|x) 방식으로 학습시킬 수 있는 방안에 대한 방법론이다. https://github.com/huggingface/transformers/issues/1464 위 링크가 내가 생각했던 문제와 매우 비슷해서 정리한다. (2019 글) 위 issues 에서 화자가 생각하는 question 주제는 모델에 input (”source seq가 포함되어 있는” 이라고 되어있는데, 그건 target 도 같이 넣는다는 의미로 해석) 을 forward 시킬 때 source token 에 대한 loss 는 0 으로 만들어야 하나? 이다. = 이는..
(IA)3 paper 등에서 제시한 Prompt Tuning 의 문제점 : Prompt network 의 initialization 이 성능에 매우 큰 영향을 미친다. 이 문제점이 가장 처음 제기된 논문이다. 기존 Prompt Tuning 의 문제점 모델 capacity 가 증가할수록 프롬프트 튜닝이 파인튜닝에 성능이 근접해간다. 하지만 11B 이하 작은 모델로는 이 두 방법론의 성능 사이에 큰 차이가 존재한다. 이를 해결하기 위해 Source task 로 학습된 프롬프트를 Transfer 에 이용하여 Target task 의 성능을 높일 것을 제안한다. Method (right Fig.) 1개 이상의 source task 에 대해 (frozen model에서) prompt 를 학습하고 이 프롬프트를 초..