결정 트리(Decision Tree)와 랜덤 포레스트(Random Forest)

본문 바로가기 메뉴 바로가기

티스토리 뷰

파이썬/머신러닝

결정 트리(Decision Tree)와 랜덤 포레스트(Random Forest)

코린이도이 2021. 6. 8. 13:53

1. 결정 트리(Decision Tree)

데이터 마이닝에서 일반적으로 사용되는 방법론으로, 몇몇 입력 변수를 바탕으로 목표 변수의 값을 예측하는 모델을 생성하는 것을 목표로 한다.
아래 그림은 그러한 예측 모델의 한 예를 나타내고 있다. 그림의 트리 구조에서, 각 내부 노드들은 하나의 입력 변수에, 자녀 노드들로 이어지는 가지들은 입력 변수의 가능한 값에 대응된다.
잎 노드는 각 입력 변수들이 루트 노드로부터 잎 노드로 이어지는 경로에 해당되는 값들을 가질 때의 목표 변수 값에 해당된다.

2. 랜덤 포레스트(Random Forest)

분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종으로, 훈련 과정에서 구성한 다수의 결정 트리로부터 부류(분류) 또는 평균 예측치(회귀 분석)를 출력함으로써 동작한다.
랜덤포레스트는 전체 데이터의 일부를 샘플링한 서브 데이터를 이용해서 학습시킨 여러개의 결정크리의 예측값들간에 보팅을 통해서 최종 출력값을 만들어내는 기법이다.

3. 앙상블 러닝(Ensemble Learning)

여러 개의 분류기의 예측 결과값 간의 투표를 통해서 최종 결과값을 만들어내는 기법이다.
앙상블 러닝을 이용할 경우, 더욱 좋은 예측 성능을 기대할 수 있다.
scikit-learn에서 랜덤 포레스트를 구현한 Estimator는 2가지 이다.
- sklearn.ensemble.RandomForestClassifier (분류(Classification) 문제에 사용)
- sklearn.ensemble.RandomForestRegressor (회귀(Regression) 문제에 사용)

4. 랜덤 포레스트의 하이퍼 파라미터

하이퍼 파라미터(hyper-parameter)란 알고리즘의 동작 과정에 영향을 미치는 중요한 값들로써 알고리즘 디자이너가 결정해줘야만하는 값들이다.
랜덤 포레스트의 하이퍼 파라미터는 다음과 같다.
1. n-estimators: 랜덤 포레스트에서 사용할 결정트리 개수를 지칭한다. 기본값은 100개이다. 많이 설정할 수록 성능이 향상될 수 있지만 학습 시간이 오래 걸릴 수 있다.
2. max_features: 결정트리 분할 기준으로 사용할 Feature 개수
3. max_depth: 트리의 최대 깊이, 너무 깊어지면 오버피팅이 발생할 가능성이 있음
4. min_samples_split: 노드를 분할하기 위한 최소한의 샘플 데이터 수, 너무 작은 경우 과적합이 발생할 가능성이 높아진다. 기본값은 2이다.

저작자표시 (새창열림)

'파이썬 > 머신러닝' 카테고리의 다른 글

머신러닝 (0)	2021.07.02
scikit-learn & 머신러닝 기초 (0)	2021.06.08
머신러닝에 대해 알아보자! (0)	2021.06.08

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

글 보관함

티스토리툴바