토큰(Token) : 가장 기본이 되는 단어, 일반적으로 일정한 의미가 있는 가장 작은 정보 단위 토크나이징(Tokenizing) : 언어를 토큰화하는 것 - 한 문장에 대한 토크나이징 예시 형태소 : 일정한 의미가 있는 가장 작은 단위(언어학에서 사용되는 용어) 한국어 문장을 분석하려면 토크나이징을 먼저 해야 한다. 이 과정에서 형태소를 토큰 단위로 사용할 것이다. 이제 문장을 형태소 단위로 토크나이징해보자. 이 때, 토크나이징을 하려면 형태소 분석기가 필요하다. KoNLPy 라이브러리를 이용할 것이다.(여기서는 Kkma(꼬꼬마), Komoran, Okt(구 Twitter)를 실습한다) 형태소 분석기 Kkma(꼬꼬마) Komoran Okt(구 Twitter) 여기에는 다루지 않아도 mecab, khai..
한국어 자연어 처리 - 기본 용어 및 형태소 분석기 사용법
토큰(Token) : 가장 기본이 되는 단어, 일반적으로 일정한 의미가 있는 가장 작은 정보 단위 토크나이징(Tokenizing) : 언어를 토큰화하는 것 - 한 문장에 대한 토크나이징 예시 형태소 : 일정한 의미가 있는 가장 작은 단위(언어학에서 사용되는 용어) 한국어 문장을 분석하려면 토크나이징을 먼저 해야 한다. 이 과정에서 형태소를 토큰 단위로 사용할 것이다. 이제 문장을 형태소 단위로 토크나이징해보자. 이 때, 토크나이징을 하려면 형태소 분석기가 필요하다. KoNLPy 라이브러리를 이용할 것이다.(여기서는 Kkma(꼬꼬마), Komoran, Okt(구 Twitter)를 실습한다) 형태소 분석기 Kkma(꼬꼬마) Komoran Okt(구 Twitter) 여기에는 다루지 않아도 mecab, khai..
2021.04.19