'머신러닝' 카테고리의 글 목록

머신러닝은 데이터 가공/변환 -> 모델 학습/예측 -> 평가의 과정으로 구성됩니다. 성능 평가 지표는 일반적으로 모델이 분류냐, 회귀냐에 따라 여러종류로 나뉩니다. 분류(이진)에 사용되는 성능 평가 지표 분류의 성능 평가 지표 정확도(Accuracy) 오차행렬(Confusion Matrix) 정밀도(Precision) 재현율(Recall) F1 스코어 ROC AUC

정확도(Accuracy) 정확도는 실제 데이터에서 예측 데이터가 얼마나 같은지를 판단하는 지표입니다. 정확도(Accuracy) = 예측 결과가 동일한 데이터 건수 / 전체 예측 데이터 건수 import sklearn accuracy_score(y_test,mypredictions) accuracy_score(정답값, 예측값) 함수로 정확도를 쉽게 구할수 있다. 하지만 데이터의 구성에 따라 왜곡될수 있기때문에 정확도만으로 평가하는것은 적합하지 않다.. (EX : 희귀병환자의 경우 병이 걸린 환자보다 병이 걸리지 않은 사람이 데이터가 훨씬 많기 때문에 컴퓨터가 어떤 과정을 거치지 않고, 단순하게 모든 경우를 정상적인 환자라 결과를 내놔도 정확도는 꽤 높게 형성될수 있는 경우가 있다.) from sklearn..

apply함수 판다스에서는 apply함수로 lambda함수로 데이터를 가공해 dataframe에 값을 추가할수 있게 지원해준다. 다음 타이타닉 데이터로 예시를 들겠다. def get_category(age): cat='' if (age

정규화와 표준화가 왜 필요한 것일까? 머신러닝은 특징들을 받아 결과를 도출해내는 과정인데, 여러 특징들은 모두 다양한 단위를 같고있습니다. 예로들어 특징A는 0~100KM의 거리를 뜻하고 특징B는 0~100000000원을 의미할때 두개의 특징을 모두 동일한 크기단위로 비교하기 위해 값을 변환하는 것입니다. 즉 개별데이터의 크기를 모두 똑같은 단위로 변경하는 것입니다. 정규화 정규화의 공식은 위와 같다. 각 특징들을 최소0에서 최대1까지로 변환하여 준다. 표준화 표준화의 공식은 위와 같다. 각 특징들의 값이 평균에서 얼마나 멀리 떨어져 있는지를 나타낼때 사용한다. StandScaler StandScaler는 표준화를 쉽게 지원해주는 클래스이다. 평균을0, 분산이 1인 값으로 변환해준다. StandardSc..

티스토리툴바