인공지능/머신러닝(2)
-
# [EDA] 데이터 불균형 해결을 위한 SMOTE oversampling
📌 본 포스팅은 오버샘플링을 통한 데이터 불균형 해결 내용을 다룹니다. 📌 [참고] 데이콘 1. 데이터 불균형 1.1 데이터 불균형 모델 학습의 균형한 클랫의 데이터가 다른 클래스에 비해 훨씬 많을 때 발생함. ex) 은행 사기 탐지 시스템에서 정상거래는 많지만 사기거래는 적은 경우 모델이 사기 거래를 제대로 인식하지 못할 수있음. 모델 성능 저하, 일반화 능력 감소, 부정적 결과 초래데이터가 불균형하면 다양한 상황을 제대로 학습 불가. 특정 유형 데이터만 많이 보면 다른 중요한 유형 간과 혹은 잘못 이해소수 클래스 과소평가 사기거래를 찾는게 아니라 그냥 모든 거래를 정상으로 분류 할수 있음. 이럴경우 99 퍼 예측률 나옴. 불균형으로 인한 과적합이 나올수 잇음. 정상거래에 완전히 과..
2024.12.17 -
# [EDA]] 이상치 체크 및 시각화 함수
📌 본 포스팅은 이상치를 체크하고 시각화하는 내용을 다룹니다.비정상적이지만 중요할 수잇는 데이터 포인트 발견 , 통계기법과 알고리즘 접근법 , Z-score, DBSCAN, LOF 다변량 기법단변량 이상치, 다변량 이상치 탐지 1. 데이터에 숨이있는 이상치의 비밀과 영향 다른값과 현저히 다른 데이터 , 오류, 실수, 예상치 못한 중요한 현상 반영 하기도함.이상치는 종종 숨겨진 비밀을 풀어나가는 열쇠 , 잘못하면 분석 결과를 왜곡. 1.1 정의좀 특별해, 새로운 관점이나 중요한 정보. 1.2 원인인간적인실수, 데이터 손상, 실제로 예외적인 일( 이상치로 단정지어버리면 안되고 원인 분석을 하고 패턴에서 위치 이해). 1.3 유형단변량 이상치 : 변수하나에서 이상한 값.다변량 이상치 : 변수 여러개를 ..
2024.12.17