DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

2024. 11. 7. 13:25 · 머신러닝 이모저모

VScode Debug configuration file 만들기 : accelerate 와 deepspeed (1)	2024.11.09
cuda downgrade 하기 (4)	2024.11.08
Peft save_pretrained() 에러 : UnboundLocalError: local variable 'active_adapters' referenced before assignment (0)	2024.10.20
[이화여대 강의] 2. Deep Learning Software Stack 1 (3) (3)	2024.09.21
[이화여대 강의] 2. Deep Learning Software Stack 1 (2) (0)	2024.09.20

Abstract