
Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models (EEVE) 논문 정리
AbstractEEVE-Korean-v1.0 이라는 모델을 소개한다.이 모델은 영어와 한국어 text 이해 둘다 좋은 성능을 가지는 한국어 version LLM 이다. 기존의 영어 중심 모델들은 영어에 특화된 tokenizer 를 사용하기 때문에 한국어를 처리할 때 비효율적이다그래서 이 논문에서는 새로운 “어휘 확장 방식”(Vocabulary Expansion) 을 제안한다. 이전 연구들에서는 새로운 언어 임베딩을 학습하려면 수조개의 토큰이 필요하다고 했지만, 이 논문에서는 단 20억개 토큰만으로 비영어 언어 성능을 크게 향상시킬 수 있음을 보여준다. EEVE-Korean-10.8B-v1.0은 2024년 1월 기준 Open Ko-LLM Leaderboard에서 대부분의 instruction-tuned L..