슬기로운 연구생활

3-4. BoW + Random Forest Classifier 본문

프로젝트 : 영화리뷰 분류

3-4. BoW + Random Forest Classifier

vhrehfdl 2019. 7. 25. 15:27

[0] 서론

- RandomForest는 사실 아무 생각 없이 사용했었다.

Decision Tree 형태를 가진다는 것만 알고 있었지 이번에 적용하면서 대략적은 흐름을 알게되었다.

- RandomForet도 SVM과 마찬가지로 60만개의 학습데이터를 사용하면 시간이 오래 걸리기 때문에 2만개의 학습데이터를 사용해 model을 만들었다.

[1] 실험

sklearn의 ensemble.RandomForestClassifier()를 사용하였다.

 

[1-1] DataSet

- Train Data ( train_small.csv )

긍정 리뷰 : 10,000 / 부정 리뷰 : 10,000

- Test Data ( validation.csv )

긍정 리뷰 : 10,338 / 부정 리뷰 : 30,586

Train Data와 Test Data에 대해서 좀 더 설명하자면 평점이 1점 ~ 3점인 영화리뷰를 부정 리뷰로 분류했고 10점인 리뷰를 긍정 리뷰로 분류했다.

[1-2] Text To Vector

- Bag of Word를 방법을 사용해 Text를 Vector로 변환한다.

실험 Vector 차원수 : 161,555

[1-3] Random Forest Classifier

( 그림1 ) 실험 결과

accuracy : 0.79

​​

[2] 정리

 

  BoW
NB 0.86
SVM ver.1 0.57
SVM ver.2 0.76
Random Forest 0.79

 

SVM ver.1 : 기본 SVM

SVM ver.2 : version1에 rbf 커널 추가 ( C=10, gamma = 0.1 )

'프로젝트 : 영화리뷰 분류' 카테고리의 다른 글

4-1. TF-IDF + NB  (0) 2019.09.10
3-5. BoW + XGBoosting  (0) 2019.07.25
3-3. BoW + SVM  (0) 2019.07.25
3-2. BoW + NB + Komoran  (0) 2019.07.25
3-1. BoW + NB  (0) 2019.07.24
Comments