mixed precision

Bit Quantization 을 할때 알아야 할 precision 개념을 알아보자.일단 Bit Quantization 이란 computation 과 메모리 cost를 줄이기 위해 모델의 weight 와 activation 를 표현하는 bit 수를 low-precision 으로 표현하는 방법이다.bit 를 이용해 수를 2진수로 표현한다. Float32일반적으로 모델 학습에 사용되는 부동 소수점 default precision 은 32 이다. 그리고 inference 에서는 속도를 높이기 위해서 사용된다고 한다. Float16fp 는 floating point 라는 뜻이고 bf 는 bfloat 이다.bf16은 주로 인공지능 분야에서 사용하는 단위로 모델 학습시 fp32 와 비교했을때 약 50% 정도 메모리..
섬섬옥수수
'mixed precision' 태그의 글 목록