전체 글

컴공 AI 개발자가 되기 위한 노역입니다
단순한 Softmax 함수는 numerical instability하다. e의 지수연산을 하게 되므로, 쉽게 오버플로 혹은 언더플로가 발생할 수 있다. 예를 들어 [100, 200, 300] (너무 큰 값들의 list)을 soft max function에 단순 계산하게 된다면, overflow가 발생하여,가장 큰 값에만 1에 근사한 값이 들어가고 나머지 class에는 0에 가까운 값이 들어간다. ([0.000..., 0.000..., 1]) 반대로, [1/1000, 1/2000, 1/3000](너무 작은 값들의 list)을 전사한다면,under flow가 발생하여, soft max함수 결과는 각각의 성분에 동일하게(uniform하게) 들어가게 된다. ( [0.33333.., 0.33333..., 0.33..
Exception has occurred: OSErrorYou are trying to access a gated repo.Make sure to request access at https://huggingface.co/LDCC/LDCC-Instruct-Llama-2-ko-13B-v1.4 and pass a token having permission to this repo either by logging in with `huggingface-cli login` or by passing `token=`.requests.exceptions.HTTPError: 401 Client Error: Unauthorized for url: https://huggingface.co/LDCC/LDCC-Instruct-Ll..
** Apple 에서 나온 논문이다https://arxiv.org/pdf/2405.13226 원래 decoder-only 모델을 사용할 때는 1개 문장을 학습할 때 max seq length 만큼 padding 하여 학습하는 방법을 사용한다.하지만 padding 은 학습 비효율성을 매우매우 늘리기 때문에 특히나 LLM 을 학습할 때에는 불리하다.그래서 요즘은 "packing" 이라는 방법을 사용한다.packing 이란 padding 을 하지 않기 위해 다음 문장을 padding 부분에 붙여서 최대한 많은 문장을 학습하는 방법이다.  이 논문은 이러한 packing 을 조금 더 개선한 방법이다. Abstract기존 LLM 이 고정된 seq seq length 를 이용하여 학습하기 위해 다양한 길이의 문장을..
Github fork 사용하기깃허브에는 아래 그림과 같은 버튼이 있다.  다른 깃허브 레포지토리에 있는 소스를 자신의 깃허브 레포지토리로 복사해오는 방법이다.= 보통, ‘fork 한다’ 라고 말한다. fork 하려는 깃허브 레포지토리를 들어가서 위 그림의 오른쪽 상단, Fork 를 클릭하면 복사가 된다. ** 이때 레포지토리 이름을 변경해도 되는지 모르겠어서 그건 안하고 description 만 변경시켰다.  다시 나의 깃허브에 포크된 repository 로 가면 왼쪽 상단 레포지토리 이름에 밑의 그림과 같이 ‘forked from ~’ 이라는 표시가 뜬다. 이 방법은 ‘pull request’ 를 하지 않으면 내 레포지토리에서 변경한 내용이 오리지널 레포지토리에 적용되지 않는다.(또한 실수로 reque..