데이터 분석/프로젝트 4

NSMC 영화리뷰 데이터 감성분석(Sentiment Analysis) - Word2Vec + LSTM

데이터 EDA 데이터 셋에는 id, document, label이렇게 세개의 칼럼이 있다. 학습에 필요한 부분은 document(리뷰텍스트)와 label(부정:0, 긍정:1) 이 두 칼럼데이터 이다. # 네이버 영화리뷰 데이터 불러오기 train = pd.read_table(r"data\nsmc\ratings_train.txt") test = pd.read_table(r"data\nsmc\ratings_test.txt") train.head() 학습데이터 150000, 테스트데이터 50000개로 총 200000개의 영화리뷰가 있다. 라벨은 50:50으로 균형 # 데이터 개수 print(train.shape) # (150000, 3) print(test.shape) # (50000, 3) # 라벨의 비율 ..

맥주 개발 프로젝트

코드스테이츠 AI 부트캠프 3기 section2 프로젝트 내용을 정리한 것입니다. 1. 개요 전세계 맥주데이터를 분석하여 소비자들이 어떤 맥주를 선호하는지 머신러닝 기법을 통해서 분석하고 결론을 도출하는 프로젝트 입니다. 2. 프로젝트의 목표 알코올 함유량에 따라서 소비자들의 맥주 선호도가 달라지는지 확인해보려고 한다. 가설은 다음과 같이 설정해보았다. 가설 : 알코올의 함유량에 따라 맥주에 대한 소비자들의 평가가 다를것이다. 3. 데이터 총 5500개 정도의 데이터와 21개의 피처를 가지고 있는 맥주데이터 입니다. (데이터 출처 : https://www.kaggle.com/stephenpolozoff/top-beer-information?select=beer_data_set.csv) 앞에서부터 10개의..

비디오 게임 데이터를 이용하여 출시할 게임 설계하기

코드스테이츠 AI 부트캠프 3기 section1 프로젝트 내용을 정리한 것입니다. 1. 프로젝트 개요 1980년도부터 2020년까지 출시된 게임의 지역별, 연도별 판매량 데이터를 통해 게임시장의 트랜드변화와 앞으로 게임시장은 어떻게 될 것인지, 최종적으로 새롭게 출시할 게임을 설계하고 추천하는 프로젝트 입니다. 2. 프로젝트의 목표 새롭게 출시할 게임 설계하기. 게임장르 플랫폼 지역 게임회사 출시시기 3. 데이터 EDA 및 전처리 총 16000개 정도의 데이터와 9개의 피쳐(feature)를 가지고있는 게임데이터입니다. 게임이름(Name), 사용된 플렛폼(Platform), 출시년도(Year), 장르(Genre)와 회사정보(Publisher)가 있으며 각각 북미,유럽,일본,그외 지역의 판매량(Sales)..