일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 인공지능
- 석사
- 대학원
- sentiment analysis
- 품사태깅
- word embedding
- Classification Task
- NLP
- CUDA
- Word2Vec
- pytorch
- 수기
- 우울증
- 전처리
- naver movie review
- 자연어처리
- Today
- Total
목록슬기로운 NLP 생활 (16)
슬기로운 연구생활
이전 글 [1] 자연어처리란? [2] Classification Task [3] POS Tagging [4] Stemming, Lemmatizing [5] 형태소 분석기 [6] One-Hot Encoding, Bag Of Word [7] TF-IDF 들어가며 앞서 소개했던 Bag of Words와 TF-IDF는 Count Based Language Model에 속합니다. 왜나하면 단어를 vector로 표현할 때 단어의 빈도수를 특성으로 표현하기 때문입니다. Count Based Language Model의 단점은 Sparse Vector이기 때문에 하나의 단어를 표현하는데 불필요한 공간이 소모된다는 것과 단어간의 의미적 유사성을 알 수 없다는 것입니다. 이번글에서 소개할 Language Model은 위의..
이전 글 [1] 자연어처리란? [2] Classification Task [3] POS Tagging [4] Stemming, Lemmatizing [5] 형태소 분석기 [6] One-Hot Encoding, Bag Of Word 들어가며 이전 글에서는 Text To Vector의 가장 기본적인 단계인 One-Hot Encoding과 Bag of Words에 대해 알아보았습니다. Bag of Words의 문제점은 중요한 단어들에 대해 가중치를 주지 못한다는 문제점이 있습니다. 그래서 이번 글에서는 단어마다 가중치를 부여해 서로 다른 값을 가지는 TF-IDF에 대해 알아보겠습니다. TF-IDF TF-IDF란 단어의 빈도와 역문서 빈도를 계산해 단어에 가중치를 부여하는 방법입니다. TF ( Term Fr..
이전 글 [1] 자연어처리란? [2] Classification Task [3] POS Tagging [4] Stemming, Lemmatizing [5] 형태소 분석기 들어가며 이전 글에서는 Pre Processing 방법들에 대해 살펴보았습니다. 이번 글부터는 자연어처리의 핵심인 Text To Vector의 대해 하나 하나 알아보도록 하겠습니다. Word Representation의 제일 기초부터 최신 내용까지 살펴보겠습니다. Word Representation 이미지를 다루는 Vision에서는 이미지가 0~256 사이의 fixel 값으로 변환될 수 있습니다. 이미지는 이와 같이 직관적으로 수치적인 데이터로 변환 가능합니다. 반면 텍스트는 이와 같이 변환이 어렵기 때문에 Word Representat..
이전 글 [1] 자연어처리란? [2] Classification Task [3] POS Tagging [4] Stemming, Lemmatizing 들어가며 이전 글에서는 전처리 방법인 Stemming, Lemmatizing에 대해 설명했습니다. 이번 글에서는 한국어 자연어 처리의 핵심인 형태소 분석기에 대해 알아보겠습니다. 형태소 분석기 형태소 분석기는 문장을 형태소로 분리해주는 도구입니다. 형태소의 정의는 "뜻을 가진 가장 작은 말의 단위. ‘이야기책’의 ‘이야기’, ‘책’ 따위이다." 입니다 [네이버 국어사전]. 예를 들어, "아버지가 방에 들어가신다"라는 문장에 형태소 분석을 적용하면 "아버지/NNG, 가/JKS, 방/NNG, 에/JKB, 들어가/VV, 신다/EP+EC"로 분리가 됩니다. 그러나 ..
이전 글 자연어처리 [1] 자연어처리란? 자연어처리 [2] Classification Task 자연어처리 [3] POS Tagging 들어가며 이전 글에서는 Pre Precessing 과정 중 하나인 POS Tagging에 대해 설명했습니다. 이번 글에서는 영어 텍스트 전처리를 할 때, 자주 사용되는 전처리 방법인 Stemming과 Lemmatizing에 대해 알아보겠습니다. Stemming Stemming(어간 추출)은 어형이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리하는 것을 말합니다 [위키백과]. Stemming은 정해진 규칙만 보고 단어의 어미를 어림짐작으로 자르기 때문에, Stemming 후에 나오는 단어는 사전에 존재하지 않는 단어일 가능성이 있습니다. from nltk.st..
이전 글 [1] 자연어처리란? [2] Classification Task 들어가며 이전 글에서는 자연어처리 Classification의 전체 흐름과 구현 코드를 알아보았습니다. Classification은 Load Data > Pre Processing > Text To Vector > Build Model > Evaluation의 흐름으로 진행됩니다. 이번 글에서는 Pre Processing 방법 중 하나인 POS Tagging에 대해 살펴보겠습니다. POS Tagging 품사 태깅은 문장을 형태소 단위로 분리 한 후, 해당 형태소의 품사를 태깅하는 것을 의미합니다. 품사는 명사, 대명사, 수사, 조사, 동사, 형용사, 관형사, 부사, 감탄사와 같이 공통된 성질을 지닌 낱말끼리 모아 놓은 낱말의 갈래를..
이전 글 [1] 자연어처리란? 들어가며 이전 글에서는 자연어처리 정의와 Task에 대해 알아보았습니다. 자연어처리의 Task는 크게 Classification과 Generation로 구분될 수 있습니다. 이번 글에서는 Classification의 전체 흐름과 구현 방법에 대해 알아보겠습니다. Classification 이란 무엇인가? Classification은 Input 값을 특정 Class로 분류하는 것을 의미합니다. Classification은 간단하지만 다양한 분야에 적용할 수 있습니다. - 영화 리뷰 긍부정 분류 - 가짜 뉴스 분류 - 질문의 의도 분류 - 사용자의 발화 의도 분류 Classification으로 챗봇까지 구현할 수 있습니다. Chat1 : 오늘 밥 먹자 Chat2 : 좋아 뭐 먹..
자연어처리(Natural Language Processing)란? Natural Language Processing(NLP)을 한국어로 직독하면 자연 언어 처리라는 뜻입니다. - 자연어 : 일반 사회에서 자연히 발생하여 자연스럽게 쓰이고 있는 언어. 에스페란토와 같은 인공 언어에 대응하여 이르는 말. ( 출처 : 네이버 사전 ) - 기계어 : 컴퓨터가 직접 읽을 수 있는 2진 숫자(binary digit, 0과 1)로 이루어진 언어를 말하며, 이는 프로그래밍 언어의 기본이 된다. ( 출처 : 네이버 사전 ) 사전적인 정의는 위와 같으며 직관적으로 말하면, 우리가 사용하는 한국어, 영어, 일본어 등 다양한 언어를 처리하는 행위를 NLP라 합니다. NLP Task 종류 NLP에는 다양한 Task가 존재합니다..