Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 인공지능
- NLP
- CUDA
- naver movie review
- 석사
- 전처리
- Classification Task
- 대학원
- 우울증
- 품사태깅
- 수기
- 자연어처리
- word embedding
- sentiment analysis
- pytorch
- Word2Vec
Archives
- Today
- Total
슬기로운 연구생활
3-4. BoW + Random Forest Classifier 본문
[0] 서론
- RandomForest는 사실 아무 생각 없이 사용했었다.
Decision Tree 형태를 가진다는 것만 알고 있었지 이번에 적용하면서 대략적은 흐름을 알게되었다.
- RandomForet도 SVM과 마찬가지로 60만개의 학습데이터를 사용하면 시간이 오래 걸리기 때문에 2만개의 학습데이터를 사용해 model을 만들었다.
[1] 실험
sklearn의 ensemble.RandomForestClassifier()를 사용하였다.
[1-1] DataSet
- Train Data ( train_small.csv )
긍정 리뷰 : 10,000 / 부정 리뷰 : 10,000
- Test Data ( validation.csv )
긍정 리뷰 : 10,338 / 부정 리뷰 : 30,586
Train Data와 Test Data에 대해서 좀 더 설명하자면 평점이 1점 ~ 3점인 영화리뷰를 부정 리뷰로 분류했고 10점인 리뷰를 긍정 리뷰로 분류했다.
[1-2] Text To Vector
- Bag of Word를 방법을 사용해 Text를 Vector로 변환한다.
실험 Vector 차원수 : 161,555
[1-3] Random Forest Classifier
accuracy : 0.79
[2] 정리
BoW | |
NB | 0.86 |
SVM ver.1 | 0.57 |
SVM ver.2 | 0.76 |
Random Forest | 0.79 |
SVM ver.1 : 기본 SVM
SVM ver.2 : version1에 rbf 커널 추가 ( C=10, gamma = 0.1 )
'프로젝트 : 영화리뷰 분류' 카테고리의 다른 글
4-1. TF-IDF + NB (0) | 2019.09.10 |
---|---|
3-5. BoW + XGBoosting (0) | 2019.07.25 |
3-3. BoW + SVM (0) | 2019.07.25 |
3-2. BoW + NB + Komoran (0) | 2019.07.25 |
3-1. BoW + NB (0) | 2019.07.24 |
Comments