본문 바로가기

분류 전체보기

(22)
[Python] matplotlib font 속성 [Plot 글씨체, 크기 등 속성 변경] import matplotlib.pyplot as plt plt.figure(figsize=(15,10)) # legend, title등 font 속성 fontdict={'fontname': 'Times New Roman', 'fontsize': 30, 'style': 'italic', # 'oblique' 'fontweight': 'bold'} # 'heavy', 'light', 'ultrabold', 'ultralight' # x,y axis 폰트 속성 설정 plt.rcParams['font.family'] = 'Times New Roman' plt.rcParams['font.size'] = 20 # 개별적용 - plt.yticks(fontsize=20) pl..
[Python] glob을 이용하여 csv 파일 불러오기 csv파일을 불러와서 하나로 합치기 import pandas as pd from glob import glob files = glob("*.csv",recursive=True) # recursive 하위폴더에 있는 파일까지 불러옴 # print(files) df_merge = pd.DataFrame() for idx, filename in enumerate(files): df = pd.read_csv(f"{filename}",sep=',') # print("File %d size :" % idx, df.shape) # 불러온 데이터 사이즈 확인 df_merge = df_merge.append(df, ignore_index=True) # print("Merged size :", df_merge.shape)..
[Python] Correlation & Heatmap Python에서 Correlationship 계산 및 시각화 필수 패키지 - pandas, matplotlib, seaborn import pandas as pd import matplotlib.pyplot as plt import seaborn as sns file = pd.read_csv('./filename.csv') file.head() # column = file.columns corr = file.corr() # pandas에서 dataframe형식에 대해 지원 # corrw = file.corrwith(file["column_name"]) # 특정 column과 다른변수들과의 관계, size = (len(column),) # corrw = pd.DataFrame(corr) # heatmap그..
[ML] Data shuffling Effects 머신러닝 적용 중 겪은 현상 [Model Convergence & Performance] Scikit-learn MLPRegressor vs Pytorch 사이킷런에서 제공하는 MLPRegressor로 모델을 돌렸을때와, torch로 같은 hyperparameter로 세운 모델의 수렴속도 차이가 엄청나게 났다. MLPRegressor로 돌릴땐 최대 학습반복 수를 2000번으로 설정해뒀는데 167번정도 돌다가 멈췄고, torch로 세운 모델은 200번 돌아갈동안 MLPRegressor의 loss의 반의 반도 못따라갔다. 같은 iteration동안 모델 수렴속도가 엄청나게 차이가 났다. 첫 loss크기 차이부터 2배가 났고, MLPRegressor가 3번 학습하는동안 loss가 149까지 내려갈때, torc..
[Python][Pytorch] SHAP 라이브러리 Error 공유 [Task] 시계열 연속형 데이터를 입력변수로 한 머신러닝/딥러닝 기반 예측 (Regression) [Language] Python 3.6.12 [Framework] Pytorch 1.7.0 [Library] SHAP 0.35.0 이 글에서는, 파이썬의 shap 라이브러리를 사용하던 중 겪은 error와 나름의(?) 해결 방법을 공유합니다. 해당 에러는 torch에서 DNN모델을 구축한 후, shap를 적용한 상황에서 겪은 오류들로 주로, 구글링을 해도 잘 나오지 않는 정보에 대해 공유하려 합니다. 1) shap summary plot 사용시 grey color dot torch에서 DNN모델을 만들고, 해석을 위해 가장 먼저 summary plot을 뽑는데, 이제껏 잘 나오던 것이 회색 도트로 찍히면서..
[ML] XAI, Model Interpretability XAI ? 기계학습 모델은 대부분이 Black-Box이기 때문에 성능이 아무리 좋아도 비즈니스 환경(혹은 군사, 의료영역과 같이 Critical한 영역)에서 모델이 내린 의사결정에 대해 설명할 수 없어 확장, 보급이 어려웠다. 하지만 최근 몇년전부터 미국DARPA 기관에 의해 XAI라는 프로젝트를 통해 XAI가 알려지기 시작하면서 짧은 기간내에 수많은 연구가 이루어지고 있다. XAI의 목적은 예측에 영향을 미친 변수를 확인하고 모델이 내린 의사결정을 파악하여 신뢰성을 제고시키고 모델에 설명력을 부여한다. 해석 접근 방법 - Global & Local - Model Specific & Model Agnostic [Global interpretability] - 모델의 로직 바탕으로 모든 예측과 결과 설명 ..