본문 바로가기
AI교육

의사결정나무의 특징과 장단점

by _❤
반응형

한 번에 하나씩의 설명을 하면서, 예측 가능한 규칙들의 집합을 생성하는 알고리즘을 의사결정 나무(Decision Tree)라고 하는데요. 스무고개와 아주 비슷하지요. 의사결정 나무를 데이터를 분석하여 그 패턴을 예측 가능한 규칙으로 나타내는 모양이 나무와도 같습니다.  정확히는 나무를 뒤집어 높은 것과 같은 모양인데요. 

 

1. 의사결정나무의 특징

  • 맨 위의 마디를 뿌리 노드(root node)라 하며, 이는 모든 분류 대상이 되는 모든 자료 집단을 포함한다.
  • 상위 마디를 부모 마디, 하위 마디를 자식 마디라 하며, 더이상 분기되지 않는 마디를 최종 노드(terminal node)라고 부른다.
  • 가지 분할은 나무의 가지를 생성하는 과정을 말하고, 가지치기(pruning)는 생성된 가지를 잘라내어서, 모형을 단순화하는 과정을 말한다.
  • 분기가 거듭될수록 그에 해당하는 데이터의 개수는 줄어든다. 
  • 상위 노드로부터, 하위 노드로 트리구조를 형성하는 모든 단계마다 기준값의 선택이 중요하다.
  • 분류(classification)와 회귀(regression)가 모두 가능하다.
    • 목표 변수가 이산형인 경우 분류나무, 목표 변수가 연속형인 경우에는 회기 나무로 구분된다. 

 

2. 의사결정나무의 장점

  • 범주와 연속형 수치를 모두 예측할 수 있다.
  • 구조가 단순하여 해석이 용이하고, 유용한 입력 변수의 파악, 예측 변수 간의 상호작용, 비 선형성을 고려하여 수학적 가정이 불필요한 비모수적 모형이다.  
  • 시장조사, 광고조사, 의학연구, 품질관리 등 다양한 분야에서 활용되고 있다.
  • 고객 타겟팅, 고객의 신용점수화, 캠페인에 대한 반응, 고객 행동 예측 등에 유용하다.

 

3. 의사결정나무의 단점

  • 분류 기준값의 경계선 근방의 자료 값에 대해서는 오차가 클 수 있다.
  • 로지스틱 회귀와 같이 각 예측 변수의 효과를 파악하기 어렵다.
  • 새로운 자료에 대한 예측이 불안정할 수 있다.
  • 상위 노드로부터, 하위 노드로 트리구조를 형성하는 모든 단계마다 기준값의 선택이 중요하다. 

 

반응형

댓글