분류 전체보기

AbstractEEVE-Korean-v1.0 이라는 모델을 소개한다.이 모델은 영어와 한국어 text 이해 둘다 좋은 성능을 가지는 한국어 version LLM 이다. 기존의 영어 중심 모델들은 영어에 특화된 tokenizer 를 사용하기 때문에 한국어를 처리할 때 비효율적이다그래서 이 논문에서는 새로운 “어휘 확장 방식”(Vocabulary Expansion) 을 제안한다. 이전 연구들에서는 새로운 언어 임베딩을 학습하려면 수조개의 토큰이 필요하다고 했지만, 이 논문에서는 단 20억개 토큰만으로 비영어 언어 성능을 크게 향상시킬 수 있음을 보여준다. EEVE-Korean-10.8B-v1.0은 2024년 1월 기준 Open Ko-LLM Leaderboard에서 대부분의 instruction-tuned L..
Parse tree 는 크게 2가지 종류로 나눌 수 있다. 바로 위 제목의 Dependency tree 와 Constituency tree 이다. 서로 다른 assumption(가정)을 기반으로 하고 똑같이 sequence 에서 문법 정보를 추출하는것을 목표로 한다. Constituency parsingConstituency parse 는 context-free grammar 를 기반으로 한다. 문장이 constituent 단위로 나뉘고, 즉 sun-phrase 들은 grammar 의 특정 카테고리에 포함된다. 예를 들면 a computer on the table, the nice sunset 등은 다 noun phrase 이고, eat a pizza 는 verb phrase 이다. Rule 집합을 사용..
나는 os.environ["CUDA_VISIBLE_DEVICES"] = '2,3’ 인데 🚫 RuntimeError: module must have its parameters and buffers on device cuda:0 (device_ids[0]) but found one of them on device: cpu 위 에러는 gpu 를 0 번 쓰고 근데 그거도 모자라서 cpu 사용한다고 되어있음. ** 찾아보니 : https://github.com/microsoft/DeepSpeed/issues/3070 [BUG] cannot set gpu 2,3 to train with deepspeed and trainer in huggingface · Issue #3070 · microsoft/DeepSpee..
RuntimeError: CUDA error: device-side assert triggeredCUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.For debugging consider passing CUDA_LAUNCH_BLOCKING=1.Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions. 이거는 GPU 에 코드 돌릴 때 나타나는 에러인데코드가 잘못됬을 때 나타난다고 함..그니까 그냥 구현오류인거,,, https://builtin.com/software-engineerin..
섬섬옥수수
'분류 전체보기' 카테고리의 글 목록 (2 Page)