다음 문제를 읽으시고
잘못된 점
실제 세계에서 모델을 적용할 때 일반적으로 다음과 같은 잘못된 점이 발생합니다.
모델이 데이터에 맞지 않는 경우
- 오버피팅: 모델이 특정 데이터 세트에 너무 잘 맞지만, 다른 데이터 세트에서는 제대로 작동하지 않습니다. 이는 모델이 데이터의 잡음과 이상치를 학습하여 일반화되지 못했기 때문입니다.
- 언더피팅: 모델이 데이터 세트를 충분히 잘 학습하지 못하여 예측 성능이 떨어집니다. 이는 모델이 데이터의 복잡성을 포착하기에 너무 간단하기 때문입니다.
특징 선택 및 공학이 잘못된 경우
- 관련성 없는 특징: 모델에 관련성 없는 특징이 포함되어 있어 모델 성능이 저하됩니다.
- 공선성: 모델에 공선적인 특징이 포함되어 있어 모델이 불안정해지고 예측이 어려워집니다.
- 부적절한 특징 변환: 특징이 부적절하게 변환되어 모델 성능이 저하됩니다.
모델 가정이 위반된 경우
- 선형성 가정: 데이터가 선형적이지 않은데도 불구하고 선형 모델을 적용하는 경우입니다.
- 정규성 가정: 데이터가 정규 분포하지 않은데도 불구하고 정규 분포를 가정하는 모델을 적용하는 경우입니다.
- 독립성 가정: 데이터가 독립적이지 않은데도 불구하고 독립성을 가정하는 모델을 적용하는 경우입니다.
모델 평가가 부적절한 경우
- 훈련 데이터 세트에 대한 과적합: 모델을 훈련 데이터 세트에 맞추는 데 너무 집중하여 다른 데이터 세트에서의 성능을 평가하지 않는 경우입니다.
- 적절한 평가 지표 사용하지 않음: 모델 성능을 평가하는 데 적절한 지표를 사용하지 않는 경우입니다.
- 데이터 누설: 모델 훈련에 사용된 데이터가 모델 평가에 사용되어 성능이 과대평가되는 경우입니다.
기타 잘못된 점
- 과도한 모델 복잡성: 모델이 데이터에 비해 너무 복잡하여 학습이 어렵고 일반화되지 못합니다.
- 부적절한 모델 선택: 데이터의 특성에 부적합한 모델을 선택하는 경우입니다.
- 계산 자원 부족: 모델을 적절하게 훈련하고 예측하는 데 필요한 계산 자원이 부족한 경우입니다.
- 시간 제약: 모델을 훈련하고 평가하는 데 필요한 시간이 제한되어 제대로 최적화되지 못하는 경우입니다.
- 인간의 편견: 모델 개발 과정에 인간의 편견이 반영되어 모델이 공정하지 못한 경우입니다.