머신러닝 이모저모

Abstractconventional MoE 에서 N 개 expert 에서 top-K 를 사용하는 방식은 expert specialization 에서 어려움이 있다.즉 각 expert 들이 overlapped 되지않은 지식을 학습할 수 있어야 한다.그래서 이 논문에서는 이 기능을 강화한 DeepSeekMoE architecture를 제안한다. 2가지 주요 방법을 제안하는데, expert 를 flexible combination 하게 사용할 수 있도록 한다.Ks 개의 shared expert 를 분리하여 common knowledge 를 학습하도록 하고, routed experts 사이의 redundancy 를 줄인다. IntroductionMoE 장점 : computational cost 를 유지하면서 ..
model = LlamaForCausalLM.from_pretrained(base_dir) peft_model = PeftModel.from_pretrained(model, lora_dir)merged_model = peft_model.merge_and_unload() merged_model.save_pretrained(output_dir) 이렇게 하면 아래처럼 에러가 나타날 수 있다. File "/home/***/dyeon/wandb-FastChat/fastchat/train/utils_dy.py", line 54, in merge_lora merged_model.save_pretrained(output_dir) File "/home/***/miniforge3/envs/fctrain/lib/python..
이전 글 1 : https://mari970.tistory.com/83이전 글 2 : https://mari970.tistory.com/84 [이화여대 강의] 2. Deep Learning Software Stack 1 (2)https://mari970.tistory.com/83이번 포스팅은 Software stack 1 (1) 글의 첫번째 그림에서 Acceleration libraries 를 배워보자. 이번 포스팅에서 배울 것은 아래와 같다.TensorRTinference 시에 모델 배포 등에 사용하는mari970.tistory.com CUDAc 의 extension. low level 코드이다.GPU 하드웨어 아키텍처와 깊게 연관되어 GPU 프로그래밍을 구현되어있다. Building PyTorch C..
https://mari970.tistory.com/83이번 포스팅은 Software stack 1 (1) 글의 첫번째 그림에서 Acceleration libraries 를 배워보자. 이번 포스팅에서 배울 것은 아래와 같다.TensorRTinference 시에 모델 배포 등에 사용하는 optimization 구현CuBLAS, CuDNN, NCCL 등의 계산 라이브러리 보다 상위에 존재한다.CuBLASBLAS(Basic Linear Algebra Subprogram) api 와 GAMM api 의 선형대수 계산을 cuda 로 구현한 라이브러리이다. 예를 들면 matrix multiplication 이나 transpose 등백엔드 라이브러리CuDNNconv, attn 등의 딥러닝에서 많이 사용되는 primit..
섬섬옥수수
'머신러닝 이모저모' 카테고리의 글 목록 (2 Page)