moe

Abstractconventional MoE 에서 N 개 expert 에서 top-K 를 사용하는 방식은 expert specialization 에서 어려움이 있다.즉 각 expert 들이 overlapped 되지않은 지식을 학습할 수 있어야 한다.그래서 이 논문에서는 이 기능을 강화한 DeepSeekMoE architecture를 제안한다. 2가지 주요 방법을 제안하는데, expert 를 flexible combination 하게 사용할 수 있도록 한다.Ks 개의 shared expert 를 분리하여 common knowledge 를 학습하도록 하고, routed experts 사이의 redundancy 를 줄인다. IntroductionMoE 장점 : computational cost 를 유지하면서 ..
섬섬옥수수
'moe' 태그의 글 목록