AI/NLP
-
TQA(Table Question Answering) 모델이 필요해서 찾다가 hugging face에서 글을 참고하였습니다.(원문) TAPAS Overview TAPAS 모델은 Jonathan Herzig, Pawew Krzyszof Nowak, Thomas Müller, Francesco Piccinno, Julian Martin Eisenschlos에 의해 사전 훈련을 통한 약하게 지도된 테이블 파싱에서 제안되었다. 표 형식 데이터에 대한 질문에 답하기 위해 특별히 설계된(사전 훈련된) BERT 기반 모델이다. BERT와 비교하여 TAPAS는 상대적인 위치 임베딩을 사용하며 테이블 구조를 인코딩하는 7개의 토큰 유형을 가지고 있다. TAPAS는 영어 위키백과의 수백만 개의 테이블과 해당 텍스트로 구성..
TAPAS 코드 실습(Hugging Face)TQA(Table Question Answering) 모델이 필요해서 찾다가 hugging face에서 글을 참고하였습니다.(원문) TAPAS Overview TAPAS 모델은 Jonathan Herzig, Pawew Krzyszof Nowak, Thomas Müller, Francesco Piccinno, Julian Martin Eisenschlos에 의해 사전 훈련을 통한 약하게 지도된 테이블 파싱에서 제안되었다. 표 형식 데이터에 대한 질문에 답하기 위해 특별히 설계된(사전 훈련된) BERT 기반 모델이다. BERT와 비교하여 TAPAS는 상대적인 위치 임베딩을 사용하며 테이블 구조를 인코딩하는 7개의 토큰 유형을 가지고 있다. TAPAS는 영어 위키백과의 수백만 개의 테이블과 해당 텍스트로 구성..
2023.05.04 -
Seq2Seq 이론 및 구현을 정리하고 있습니다. github code : https://github.com/fakecan/Seq2Seq/ GitHub - fakecan/Seq2Seq Contribute to fakecan/Seq2Seq development by creating an account on GitHub. github.com 코드는 깃허브에 구현되어 있고, 자료는 아래 Reference를 참고하여 진행하였습니다. Reference Seq2Seq https://jiho-ml.com/weekly-nlp-22/ https://amber-chaeeunk.tistory.com/92 https://velog.io/@sujeongim/NLPSeq2Seq-with-Attention Seq2Seq code ..
Seq2SeqSeq2Seq 이론 및 구현을 정리하고 있습니다. github code : https://github.com/fakecan/Seq2Seq/ GitHub - fakecan/Seq2Seq Contribute to fakecan/Seq2Seq development by creating an account on GitHub. github.com 코드는 깃허브에 구현되어 있고, 자료는 아래 Reference를 참고하여 진행하였습니다. Reference Seq2Seq https://jiho-ml.com/weekly-nlp-22/ https://amber-chaeeunk.tistory.com/92 https://velog.io/@sujeongim/NLPSeq2Seq-with-Attention Seq2Seq code ..
2022.08.10 -
토큰(Token) : 가장 기본이 되는 단어, 일반적으로 일정한 의미가 있는 가장 작은 정보 단위 토크나이징(Tokenizing) : 언어를 토큰화하는 것 - 한 문장에 대한 토크나이징 예시 형태소 : 일정한 의미가 있는 가장 작은 단위(언어학에서 사용되는 용어) 한국어 문장을 분석하려면 토크나이징을 먼저 해야 한다. 이 과정에서 형태소를 토큰 단위로 사용할 것이다. 이제 문장을 형태소 단위로 토크나이징해보자. 이 때, 토크나이징을 하려면 형태소 분석기가 필요하다. KoNLPy 라이브러리를 이용할 것이다.(여기서는 Kkma(꼬꼬마), Komoran, Okt(구 Twitter)를 실습한다) 형태소 분석기 Kkma(꼬꼬마) Komoran Okt(구 Twitter) 여기에는 다루지 않아도 mecab, khai..
한국어 자연어 처리 - 기본 용어 및 형태소 분석기 사용법토큰(Token) : 가장 기본이 되는 단어, 일반적으로 일정한 의미가 있는 가장 작은 정보 단위 토크나이징(Tokenizing) : 언어를 토큰화하는 것 - 한 문장에 대한 토크나이징 예시 형태소 : 일정한 의미가 있는 가장 작은 단위(언어학에서 사용되는 용어) 한국어 문장을 분석하려면 토크나이징을 먼저 해야 한다. 이 과정에서 형태소를 토큰 단위로 사용할 것이다. 이제 문장을 형태소 단위로 토크나이징해보자. 이 때, 토크나이징을 하려면 형태소 분석기가 필요하다. KoNLPy 라이브러리를 이용할 것이다.(여기서는 Kkma(꼬꼬마), Komoran, Okt(구 Twitter)를 실습한다) 형태소 분석기 Kkma(꼬꼬마) Komoran Okt(구 Twitter) 여기에는 다루지 않아도 mecab, khai..
2021.04.19