Raniche's Note

  • 홈
  • 태그
  • 방명록
  • Github

tokenization 1

[NLP] Character based tokenization

오늘은 NLP에서 Character based tokenization에 대해서 포스팅하겠다. 먼저 나오게된 계기는 띄어쓰기 기반의 토큰화가 Vocabulary 생성에 있어서 상당히 비효율성을 나타내기 때문이다. 예를 들어, "아버지가방에들어가신다" 처럼 띄어쓰기가 안되어있는 경우에는 사용자가 띄어쓰기를 수동적으로 해줘야할 수도 있고 "ㅋ", "ㅋㅋ", "ㅋㅋㅋ" 등 통신언어에서도 이 세개의 문장이 모두 같은 뜻임에도 불구하고 서로 다른 세개의 Vocabulary로 지정되게 된다. Character based tokenization에 들어가기에 앞서 한국어의 문장 구성을 살펴보겠다. 한국어의 경우 하나의 문장이 음운, 음절, 형태소, 단어, 어절, 문장으로 이루어져 있게 된다. 여기서 음운이란, 말의 뜻을..

데이터 사이언스/머신러닝 & AI 2022.06.13
이전
1
다음
더보기
프로필사진

Theory with Codes。 #########공부와 일상 기록 ########About me :: https://github.com/Minsoo1036/CV

  • 분류 전체보기 (141)
    • 데이터 사이언스 (40)
      • Statistics (15)
      • Mathematics (2)
      • Economics (3)
      • 머신러닝 & AI (9)
      • 데이터사이언스(실무) (11)
    • 프로그래밍 & 알고리즘 & IT (18)
      • R (2)
      • Python (3)
      • SQL (1)
      • 알고리즘(python) (9)
      • 컴퓨터일반 (3)
    • Review (31)
      • 도서 (7)
      • 애니&만화 (15)
      • 영화&드라마 (7)
      • 논문 (2)
    • 일상다반사 (49)
    • 영어 표현 (3)
    • etc (0)
    • 일기장 (0)

Tag

4기3쿨후편, 애니, 시뮬레이션문제, 엘리자베스길버트, 진격의거인, 후기, 애니리뷰, 이사야마하지메, 일상, 백준, 데이터사이언스, 코테연습, 하이큐, 구현문제, 파이썬, 다짐, 취미, 시계열모형, 회귀분석, 머신러닝,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2026/02   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

  • Github
  • Linkedin

티스토리툴바