데이터 분석/머신러닝 2

랜덤포레스트 모델(Random Forest Model)

이번 블로그에서는 결정트리모델의 단점인 과적합문제를 보완하고 머신러닝에서 분류문제를 풀때 가장 많이 사용되는 랜덤포레스트모델(Random Forest Model)에 대해서 알아보도록 하겠습니다~! 랜덤포레스트 모델은 결정나무를 기본 모델로 사용하는 앙상블(Ensemble) 방법입니다. 다시 말해서 결정나무(Decision Tree)를 여러개 만들어서 그 결과들을 종합적으로 고려하여 결론을 도출하는 방법입니다. 예를 들어 집단지성을 통해서 결론을 도출할 때 한쪽에 치우치지 않은 더 좋은 결론을 도출해낼 수 있는 것과 비슷한 원리라고 생각하면 될 것 같습니다. 앙상블(Ensemble) 방법이란? 강력한 하나의 모델을 사용하는 대신 보다 약한 여러개의 모델을 조합하여 더 정확한 예측을 해주는 방법..

결정트리모델(Decision Tree Model)

이번 블로그는 머신러닝 모델에 가장 많이 언급되고 사용되는 결정트리모델에 대해서 알아보겠습니다. 누구나 어렸을 때 스무고개놀이를 해보셨으리라 생각합니다. 결정트리 모델은 스무고개를 통해서 정답을 추론하는 것과 비슷한 방법으로 데이터를 분류하거나 수치를 추론(회귀)하는 모델입니다. 예를 들어 "개/참새/오징어/고래" 이렇게 4가지를 분류하는 문제가 있다고 생각해봅시다. '물에 사는 동물인가요?'라는 질문으로 [개,참새] / [오징어/고래]로 나눌수가 있습니다. 다시 '날 수 있는 동물인가요?'라는 질문으로 개와 참새를 구분할 수 있고 '다리가 10개인가요?'라는 질문으로 오징어와 고래를 구분할 수 있습니다. 이렇게 어떤 기준을 잡아서 데이터들을 구분하는 모델을 결정트리(Decision Tree)모델이라고 ..