일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- CUDA
- 전처리
- 대학원
- 품사태깅
- 수기
- 인공지능
- sentiment analysis
- word embedding
- NLP
- Classification Task
- Word2Vec
- 자연어처리
- pytorch
- 우울증
- naver movie review
- 석사
- Today
- Total
목록전체 글 (144)
슬기로운 연구생활

이전 글 [1] 자연어처리란? [2] Classification Task [3] POS Tagging [4] Stemming, Lemmatizing [5] 형태소 분석기 [6] One-Hot Encoding, Bag Of Word [7] TF-IDF [8] Word2vec [9] Fasttext [10] Glove [11] ELMo 들어가며 BERT는 현재 NLP에서는 베이스 모델로 사용되고 있고 좋은 성능으로 인해 Vision 쪽에서도 사용되는 추세입니다. 3~4년 전만 해도 Word2ve, Fasttext, Glove가 메인이였지만, 이제는 많은 연구자들이 BERT 같은 Attention 계열의 Contextual LM을 주로 사용하고 있습니다. 이번 글에서는 BERT의 대해 간략하게 살펴보도록 하겠..

이전 글 [1] 자연어처리란? [2] Classification Task [3] POS Tagging [4] Stemming, Lemmatizing [5] 형태소 분석기 [6] One-Hot Encoding, Bag Of Word [7] TF-IDF [8] Word2vec [9] Fasttext [10] Glove [11] ELMo 들어가며 최근의 GPT-3가 놀라운 성능을 보여주며 GPT에 대한 관심이 높아졌습니다. GPT-3는 굉장히 뛰어난 문장 생성 결과를 보여주고 있습니다. GPT는 OpenAI에서 만든 모델로 Transformer라는 모델의 Decoder 부분만 사용한 LM입니다. ( 이후에 살펴볼 BERT도 Transformer 기반입니다. ) Transformer에 대한 설명은 추후, "At..

이전 글 [1] 자연어처리란? [2] Classification Task [3] POS Tagging [4] Stemming, Lemmatizing [5] 형태소 분석기 [6] One-Hot Encoding, Bag Of Word [7] TF-IDF [8] Word2vec [9] Fasttext [10] Glove 들어가며 슬기로운 자연어처리[6] - [10]까지는 Word Representation에 대해 알아보았습니다. 이번 글 부터는 ELMo, GPT-1, BERT 순서대로 뛰어난 성능을 보이는 Contextualized Word Representation에 대해 알아보겠습니다. 순서는 알고리즘이 발표된 순서이며 차근 차근 살펴보도록 하겠습니다. 기존 Word Representation 방법의 문제..

이전 글 [1] 자연어처리란? [2] Classification Task [3] POS Tagging [4] Stemming, Lemmatizing [5] 형태소 분석기 [6] One-Hot Encoding, Bag Of Word [7] TF-IDF [8] Word2vec [9] Fasttext 들어가며 현재까지 Word Embedding 중 Word2vec과 Fasttext에 대해 살펴보았습니다. 오늘은 Jeffrey Pennington, Richard Socher, Christopher D. Manning이 제안한 GloVe에 대해 알아보겠습니다. 기존 방법의 문제점 GloVe 연구팀은 LSA와 Word2vec의 장단점을 지적하며 Glove라는 새로운 방법론을 제안했습니다. - LSA는 DTM이나 T..

이전 글 [1] 자연어처리란? [2] Classification Task [3] POS Tagging [4] Stemming, Lemmatizing [5] 형태소 분석기 [6] One-Hot Encoding, Bag Of Word [7] TF-IDF [8] Word2vec 들어가며 이전 글에서는 Word Embedding 방법 중 하나인 Word2vec에 대해 알아보았습니다. Word2vec을 사용하면 단어를 Dense Vector로 표현할 수 있으며 단어간의 의미를 파악할 수 있습니다. Fasttext는 Word2vec 기반이며 부분단어들을 임베딩하는 기법입니다. Fasttext Fasttext는 페이스북에서 개발한 Word Embedding 방법이며 Word2vec과 같이 Shallow Neural ..

이전 글 [1] 자연어처리란? [2] Classification Task [3] POS Tagging [4] Stemming, Lemmatizing [5] 형태소 분석기 [6] One-Hot Encoding, Bag Of Word [7] TF-IDF 들어가며 앞서 소개했던 Bag of Words와 TF-IDF는 Count Based Language Model에 속합니다. 왜나하면 단어를 vector로 표현할 때 단어의 빈도수를 특성으로 표현하기 때문입니다. Count Based Language Model의 단점은 Sparse Vector이기 때문에 하나의 단어를 표현하는데 불필요한 공간이 소모된다는 것과 단어간의 의미적 유사성을 알 수 없다는 것입니다. 이번글에서 소개할 Language Model은 위의..

이전 글 [1] 자연어처리란? [2] Classification Task [3] POS Tagging [4] Stemming, Lemmatizing [5] 형태소 분석기 [6] One-Hot Encoding, Bag Of Word 들어가며 이전 글에서는 Text To Vector의 가장 기본적인 단계인 One-Hot Encoding과 Bag of Words에 대해 알아보았습니다. Bag of Words의 문제점은 중요한 단어들에 대해 가중치를 주지 못한다는 문제점이 있습니다. 그래서 이번 글에서는 단어마다 가중치를 부여해 서로 다른 값을 가지는 TF-IDF에 대해 알아보겠습니다. TF-IDF TF-IDF란 단어의 빈도와 역문서 빈도를 계산해 단어에 가중치를 부여하는 방법입니다. TF ( Term Fr..

이전 글 [1] 자연어처리란? [2] Classification Task [3] POS Tagging [4] Stemming, Lemmatizing [5] 형태소 분석기 들어가며 이전 글에서는 Pre Processing 방법들에 대해 살펴보았습니다. 이번 글부터는 자연어처리의 핵심인 Text To Vector의 대해 하나 하나 알아보도록 하겠습니다. Word Representation의 제일 기초부터 최신 내용까지 살펴보겠습니다. Word Representation 이미지를 다루는 Vision에서는 이미지가 0~256 사이의 fixel 값으로 변환될 수 있습니다. 이미지는 이와 같이 직관적으로 수치적인 데이터로 변환 가능합니다. 반면 텍스트는 이와 같이 변환이 어렵기 때문에 Word Representat..