https://mari970.tistory.com/83이번 포스팅은 Software stack 1 (1) 글의 첫번째 그림에서 Acceleration libraries 를 배워보자. 이번 포스팅에서 배울 것은 아래와 같다.TensorRTinference 시에 모델 배포 등에 사용하는 optimization 구현CuBLAS, CuDNN, NCCL 등의 계산 라이브러리 보다 상위에 존재한다.CuBLASBLAS(Basic Linear Algebra Subprogram) api 와 GAMM api 의 선형대수 계산을 cuda 로 구현한 라이브러리이다. 예를 들면 matrix multiplication 이나 transpose 등백엔드 라이브러리CuDNNconv, attn 등의 딥러닝에서 많이 사용되는 primit..
전체 글
컴공 AI 개발자가 되기 위한 노역입니다** 본 강의의 software stack 은 NVIDIA GPU 기준으로 설명된다. 왜냐하면 엔비디아는 software stack(gpu 를 원할하게 사용할 수 있는 환경 구축)이 잘되어있기 때문이다.deep learning 라이브러리와 hardware 사이의 software stack 이 잘되어있는 것이 중요하다. General Deep Learning software stack 아래에 있는 모든 hierarchy 를 software stack 이라고 부른다. 위에서 High-level api 부터 아주 간단하게 보면,Keras 는 (파이토치에는 해당되지 않지만) Tensorflow 딥러닝 라이브러리보다는 상위레벨이다. Distributed DL 프레임워크는 Horovod 가 있다. (멀티 gpu..
심재형 교수님의 인공지능융합기반시스템개론 을 정리한다. 인공지능 (특히 딥러닝) 에서 필수적으로 알아야 할 부분은 파이썬으로 짜인 코드 뿐 아니다.거대한 모델을 돌리기 위한 하드웨어 최적화도 매우 중요하다.본 수업에서는 이 하드웨어와 하드웨어를 최적화하기 위한 소트프웨어에 대해 더 자세히 다루도록 한다.즉 이를 AI computing system 이라고 한다. 아래 내용을 수업에서 배울 것이다. AI computing 시스템 : AI 모델을 처리하기 위한 HW + SWFrameworkPytorch, Tensorflow보통 딥러닝 프레임워크에서 → 머신 코드로 번역하는 compile 과정을 거치지않고 이미 pre-compile 된 (런타임)라이브러리를 통해 함수를 호출하여 gpu 에게 넘겨준다.Runtim..
vLLM 이란 LLM 이 inference 와 serving 을 빠르게 할 수 있도록 하는 오픈소스 라이브러리이다.PagedAttention 을 사용하여 어텐션의 key 와 value 를 효율적으로 관리한다.모델 구조의 변환없이 기존 허깅페이스 Transformers 보다 24배 빠른 throughput 을 얻을 수 있었다. 📝 KV cache?auto-regressive 모델은 이전 step 에서 생성된 token sequence 를 이용하여 다음 단계 출력을 예측하는 모델로, 주로 transformer decoder 모델이다. KV caching 은 디코더에서만 사용된다. auto-regressive 에서 이전 토큰의 attention 연산이 반복되기 때문이다. KV cache 는 새로 생성된 토큰..