데이터 EDA 데이터 셋에는 id, document, label이렇게 세개의 칼럼이 있다. 학습에 필요한 부분은 document(리뷰텍스트)와 label(부정:0, 긍정:1) 이 두 칼럼데이터 이다. # 네이버 영화리뷰 데이터 불러오기 train = pd.read_table(r"data\nsmc\ratings_train.txt") test = pd.read_table(r"data\nsmc\ratings_test.txt") train.head() 학습데이터 150000, 테스트데이터 50000개로 총 200000개의 영화리뷰가 있다. 라벨은 50:50으로 균형 # 데이터 개수 print(train.shape) # (150000, 3) print(test.shape) # (50000, 3) # 라벨의 비율 ..