오늘은 NLP에서 Character based tokenization에 대해서 포스팅하겠다. 먼저 나오게된 계기는 띄어쓰기 기반의 토큰화가 Vocabulary 생성에 있어서 상당히 비효율성을 나타내기 때문이다. 예를 들어, "아버지가방에들어가신다" 처럼 띄어쓰기가 안되어있는 경우에는 사용자가 띄어쓰기를 수동적으로 해줘야할 수도 있고 "ㅋ", "ㅋㅋ", "ㅋㅋㅋ" 등 통신언어에서도 이 세개의 문장이 모두 같은 뜻임에도 불구하고 서로 다른 세개의 Vocabulary로 지정되게 된다. Character based tokenization에 들어가기에 앞서 한국어의 문장 구성을 살펴보겠다. 한국어의 경우 하나의 문장이 음운, 음절, 형태소, 단어, 어절, 문장으로 이루어져 있게 된다. 여기서 음운이란, 말의 뜻을..