dataset decomposition

Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum

2024.11.16· LLM 관련 논문 정리

** Apple 에서 나온 논문이다https://arxiv.org/pdf/2405.13226 원래 decoder-only 모델을 사용할 때는 1개 문장을 학습할 때 max seq length 만큼 padding 하여 학습하는 방법을 사용한다.하지만 padding 은 학습 비효율성을 매우매우 늘리기 때문에 특히나 LLM 을 학습할 때에는 불리하다.그래서 요즘은 "packing" 이라는 방법을 사용한다.packing 이란 padding 을 하지 않기 위해 다음 문장을 padding 부분에 붙여서 최대한 많은 문장을 학습하는 방법이다. 이 논문은 이러한 packing 을 조금 더 개선한 방법이다. Abstract기존 LLM 이 고정된 seq seq length 를 이용하여 학습하기 위해 다양한 길이의 문장을..

티스토리툴바