Writer: Yongshin Kim
두 개 이상의 다른 token들의 결합으로 이루어진 단어를 쪼개어, vocabulary 숫자를 줄이고, 희소성을 낮춘다.
접사를 분리하여 희소성을 낮춘다.
띄어쓰기를 통일하기 위해 tokenization 수행
POS(Part of speech) Tagger