데이터 분석 및 학습 4

[MLOps] ML Pipeline

해당 스터디 자료는 AWS 기반 데이터 과학을 기반으로 진행되었습니다. 왜 Pipeline인가? Pipeline이 도대체 무엇인가? 효율적이고 이상적인 Pipeline란? ML Pipeline 플랫폼은 무엇이 있는가? Why Pipeline? Machine Learning 또한 하나의 어플리케이션 개발과 유사하게 모델을 개발하는 작업이라 볼 수 있다. 또한 ML 모델도 한 번 개발하면 끝이 나는 것이 아니라 계속해서 유지보수가 필요하다. 유지보수가 왜 필요하냐고? 크게 아래와 같이 정리할 수 있을 것 같다. 모델 성능 하락/고도화 필요성 시간이 지남에 따라 들어오는 ML 학습에 활용되는 데이터의 추이가 바뀌거나, 삭제되어 모델의 성능이 낮아질 수 있다. 혹은 학습할 수 있는 데이터가 추가되면서 모델 성능..

[Week 2] 계급 불균형(class imbalance) 다루기

해당 스터디는 사이버 보안을 위한 머신러닝 쿡북 교재를 기반으로 진행되었습니다. 계급 불균형 정의 계급 불균형 해결 방안 계급 불균형 해결 방안 적용 (실습) 요약 계급 불균형 정의 여러 분류/예측 문제에서 자주 마주하게 되는 문제 중 하나가 바로 계급 불균형이다. 분류/예측 문제는 대부분 특정 계급(class, label)으로 분류하거나 예측하게 되는데, 학습 당시에 계급(이하 class) 별로 데이터 양이 매우 불균형할 경우를 계급 불균형(이하 class imbalance)라 부른다. 아쉽게도 실생활 데이터에서 계급 불균형 문제는 자주 발생한다. 예를 들어 사기 탐지(fraud detection), 이상치 탐지(anomaly detection)와 같은 분야나 암 판별이나 악성 코드 탐지와 같이 여러 ..

[Chapter 01] Kaggle - Titanic ML from disaster

해당 스터디는 Fast Campus 강의를 기반으로 진행했습니다. Competition 소개 EDA Feature Engineering Machine Learning Submission Wrap-Up Competition 소개 스터디에서 첫 번째로 진행한 Competition은 타이타닉 재난 ML이었다. 말 그대로 타이타닉과 같은 재난에서 실제로 생존자와 사망자의 데이터를 기반으로 test 데이터셋의 사람들이 사망했을지 생존했을지 예측하는 competition이었다. 기본적으로 학습에 활용할 수 있는 feature에 대한 설명도 상세하고, 분류도 단순한 binary classification이며, class의 비율이 대략 0.6:0.4로 거의 동등해 쉽게 도전해 볼 만한 competition이다. 자세한..

[ES/KIBANA] Multi-bucket Anomaly

해당 게시글은 Elastic Search 공식 Blog의 글인 Interpreting multi-bucket impact anomalies using elastic machine learning features을 번역 및 정리했습니다. What is Multi-bucket Anomaly and Why? 하나의 time bucket에 대한 이상치를 아는 것뿐만 아니라 더 크게 보면서 흐름(trend)에 대한 이상치를 확인할 필요도 있다. 이에 따라서 ES에서는 기본적으로 multi bucket anomaly를 제공한다. Multi-bucket anomaly란 말 그대로 여러 bucket을 기준으로 채용한 anomaly로 지난 12개의 bucket의 흐름을 기준으로 anomaly를 탐지한다. How to i..