다음 문제를 읽으시고

다음 문제를 읽으시고
다음 문제를 읽으시고


다음 문제를 읽으시고

잘못된 점

실제 세계에서 모델을 적용할 때 일반적으로 다음과 같은 잘못된 점이 발생합니다.

모델이 데이터에 맞지 않는 경우

  • 오버피팅: 모델이 특정 데이터 세트에 너무 잘 맞지만, 다른 데이터 세트에서는 제대로 작동하지 않습니다. 이는 모델이 데이터의 잡음과 이상치를 학습하여 일반화되지 못했기 때문입니다.
  • 언더피팅: 모델이 데이터 세트를 충분히 잘 학습하지 못하여 예측 성능이 떨어집니다. 이는 모델이 데이터의 복잡성을 포착하기에 너무 간단하기 때문입니다.

특징 선택 및 공학이 잘못된 경우

  • 관련성 없는 특징: 모델에 관련성 없는 특징이 포함되어 있어 모델 성능이 저하됩니다.
  • 공선성: 모델에 공선적인 특징이 포함되어 있어 모델이 불안정해지고 예측이 어려워집니다.
  • 부적절한 특징 변환: 특징이 부적절하게 변환되어 모델 성능이 저하됩니다.

모델 가정이 위반된 경우

  • 선형성 가정: 데이터가 선형적이지 않은데도 불구하고 선형 모델을 적용하는 경우입니다.
  • 정규성 가정: 데이터가 정규 분포하지 않은데도 불구하고 정규 분포를 가정하는 모델을 적용하는 경우입니다.
  • 독립성 가정: 데이터가 독립적이지 않은데도 불구하고 독립성을 가정하는 모델을 적용하는 경우입니다.

모델 평가가 부적절한 경우

  • 훈련 데이터 세트에 대한 과적합: 모델을 훈련 데이터 세트에 맞추는 데 너무 집중하여 다른 데이터 세트에서의 성능을 평가하지 않는 경우입니다.
  • 적절한 평가 지표 사용하지 않음: 모델 성능을 평가하는 데 적절한 지표를 사용하지 않는 경우입니다.
  • 데이터 누설: 모델 훈련에 사용된 데이터가 모델 평가에 사용되어 성능이 과대평가되는 경우입니다.

기타 잘못된 점

  • 과도한 모델 복잡성: 모델이 데이터에 비해 너무 복잡하여 학습이 어렵고 일반화되지 못합니다.
  • 부적절한 모델 선택: 데이터의 특성에 부적합한 모델을 선택하는 경우입니다.
  • 계산 자원 부족: 모델을 적절하게 훈련하고 예측하는 데 필요한 계산 자원이 부족한 경우입니다.
  • 시간 제약: 모델을 훈련하고 평가하는 데 필요한 시간이 제한되어 제대로 최적화되지 못하는 경우입니다.
  • 인간의 편견: 모델 개발 과정에 인간의 편견이 반영되어 모델이 공정하지 못한 경우입니다.