moe

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

2024.11.07· 머신러닝 이모저모

Abstractconventional MoE 에서 N 개 expert 에서 top-K 를 사용하는 방식은 expert specialization 에서 어려움이 있다.즉 각 expert 들이 overlapped 되지않은 지식을 학습할 수 있어야 한다.그래서 이 논문에서는 이 기능을 강화한 DeepSeekMoE architecture를 제안한다. 2가지 주요 방법을 제안하는데, expert 를 flexible combination 하게 사용할 수 있도록 한다.Ks 개의 shared expert 를 분리하여 common knowledge 를 학습하도록 하고, routed experts 사이의 redundancy 를 줄인다. IntroductionMoE 장점 : computational cost 를 유지하면서 ..

티스토리툴바