일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 품사태깅
- 대학원
- 우울증
- NLP
- sentiment analysis
- 석사
- 수기
- pytorch
- 인공지능
- CUDA
- Classification Task
- naver movie review
- 전처리
- Word2Vec
- word embedding
- 자연어처리
- Today
- Total
목록슬기로운 NLP 생활 (16)
슬기로운 연구생활
이전 글 [1] 자연어처리란? [2] Classification Task [3] POS Tagging [4] Stemming, Lemmatizing [5] 형태소 분석기 [6] One-Hot Encoding, Bag Of Word [7] TF-IDF 들어가며 8장에서는 word2vec에 대해서 공부했습니다. 이번 장에서는 word2vec negative sampling에 대해 공부해보고 기존 word2vec에 대한 심도 깊은 공부를 진행하겠습니다. Problem - Word2Vec은 Output layer를 거친 값에 소프트맥스를 적용해 확률값으로 변환합니다. 그리고 [1 0 0 0] 같은 sparse matrix 형태의 정답과 비교해 역전파하여 weight matrix를 업데이트 합니다. 하지만 만약 ..
이전 글 [1] 자연어처리란? [2] Classification Task [3] POS Tagging [4] Stemming, Lemmatizing [5] 형태소 분석기 [6] One-Hot Encoding, Bag Of Word [7] TF-IDF [8] Word2vec [9] Fasttext [10] Glove [11] ELMo [12] GPT [13] BERT [14] Model 들어가며 이번글에서는 마지막 단계인 평가 방법에 대해 알아보겠습니다. 대표적으로 분류 Task에서 사용되는 평가 방법은 F1 Score 입니다. Generation에서는 BLUE Score, Meteor, Rouge 등이 사용됩니다. F1 Score 모델을 거쳐 데이터의 결과를 출력한 후에 F1 Score를 통해 성능을 평..
이전 글 [1] 자연어처리란? [2] Classification Task [3] POS Tagging [4] Stemming, Lemmatizing [5] 형태소 분석기 [6] One-Hot Encoding, Bag Of Word [7] TF-IDF [8] Word2vec [9] Fasttext [10] Glove [11] ELMo [12] GPT [13] BERT 들어가며 이전에는 BoW부터 BERT까지 자연어처리의 핵심인 Word Representation에 대해서 알아보았습니다. 자연어 처리 흐름은 데이터 불러오기 > 데이터 전처리 > 문장 벡터 변환 > 모델 생성 > 평가 순으로 진행됩니다. 이번 글에서는 Word Representation된 벡터를 활용해 모델에 입력한 후 학습하는 모델 생성 부..
이전 글 [1] 자연어처리란? [2] Classification Task [3] POS Tagging [4] Stemming, Lemmatizing [5] 형태소 분석기 [6] One-Hot Encoding, Bag Of Word [7] TF-IDF [8] Word2vec [9] Fasttext [10] Glove [11] ELMo 들어가며 BERT는 현재 NLP에서는 베이스 모델로 사용되고 있고 좋은 성능으로 인해 Vision 쪽에서도 사용되는 추세입니다. 3~4년 전만 해도 Word2ve, Fasttext, Glove가 메인이였지만, 이제는 많은 연구자들이 BERT 같은 Attention 계열의 Contextual LM을 주로 사용하고 있습니다. 이번 글에서는 BERT의 대해 간략하게 살펴보도록 하겠..
이전 글 [1] 자연어처리란? [2] Classification Task [3] POS Tagging [4] Stemming, Lemmatizing [5] 형태소 분석기 [6] One-Hot Encoding, Bag Of Word [7] TF-IDF [8] Word2vec [9] Fasttext [10] Glove [11] ELMo 들어가며 최근의 GPT-3가 놀라운 성능을 보여주며 GPT에 대한 관심이 높아졌습니다. GPT-3는 굉장히 뛰어난 문장 생성 결과를 보여주고 있습니다. GPT는 OpenAI에서 만든 모델로 Transformer라는 모델의 Decoder 부분만 사용한 LM입니다. ( 이후에 살펴볼 BERT도 Transformer 기반입니다. ) Transformer에 대한 설명은 추후, "At..
이전 글 [1] 자연어처리란? [2] Classification Task [3] POS Tagging [4] Stemming, Lemmatizing [5] 형태소 분석기 [6] One-Hot Encoding, Bag Of Word [7] TF-IDF [8] Word2vec [9] Fasttext [10] Glove 들어가며 슬기로운 자연어처리[6] - [10]까지는 Word Representation에 대해 알아보았습니다. 이번 글 부터는 ELMo, GPT-1, BERT 순서대로 뛰어난 성능을 보이는 Contextualized Word Representation에 대해 알아보겠습니다. 순서는 알고리즘이 발표된 순서이며 차근 차근 살펴보도록 하겠습니다. 기존 Word Representation 방법의 문제..
이전 글 [1] 자연어처리란? [2] Classification Task [3] POS Tagging [4] Stemming, Lemmatizing [5] 형태소 분석기 [6] One-Hot Encoding, Bag Of Word [7] TF-IDF [8] Word2vec [9] Fasttext 들어가며 현재까지 Word Embedding 중 Word2vec과 Fasttext에 대해 살펴보았습니다. 오늘은 Jeffrey Pennington, Richard Socher, Christopher D. Manning이 제안한 GloVe에 대해 알아보겠습니다. 기존 방법의 문제점 GloVe 연구팀은 LSA와 Word2vec의 장단점을 지적하며 Glove라는 새로운 방법론을 제안했습니다. - LSA는 DTM이나 T..
이전 글 [1] 자연어처리란? [2] Classification Task [3] POS Tagging [4] Stemming, Lemmatizing [5] 형태소 분석기 [6] One-Hot Encoding, Bag Of Word [7] TF-IDF [8] Word2vec 들어가며 이전 글에서는 Word Embedding 방법 중 하나인 Word2vec에 대해 알아보았습니다. Word2vec을 사용하면 단어를 Dense Vector로 표현할 수 있으며 단어간의 의미를 파악할 수 있습니다. Fasttext는 Word2vec 기반이며 부분단어들을 임베딩하는 기법입니다. Fasttext Fasttext는 페이스북에서 개발한 Word Embedding 방법이며 Word2vec과 같이 Shallow Neural ..