데이터 분석 및 학습/정보보호 머신러닝 Study 2

[MLOps] ML Pipeline

해당 스터디 자료는 AWS 기반 데이터 과학을 기반으로 진행되었습니다. 왜 Pipeline인가? Pipeline이 도대체 무엇인가? 효율적이고 이상적인 Pipeline란? ML Pipeline 플랫폼은 무엇이 있는가? Why Pipeline? Machine Learning 또한 하나의 어플리케이션 개발과 유사하게 모델을 개발하는 작업이라 볼 수 있다. 또한 ML 모델도 한 번 개발하면 끝이 나는 것이 아니라 계속해서 유지보수가 필요하다. 유지보수가 왜 필요하냐고? 크게 아래와 같이 정리할 수 있을 것 같다. 모델 성능 하락/고도화 필요성 시간이 지남에 따라 들어오는 ML 학습에 활용되는 데이터의 추이가 바뀌거나, 삭제되어 모델의 성능이 낮아질 수 있다. 혹은 학습할 수 있는 데이터가 추가되면서 모델 성능..

[Week 2] 계급 불균형(class imbalance) 다루기

해당 스터디는 사이버 보안을 위한 머신러닝 쿡북 교재를 기반으로 진행되었습니다. 계급 불균형 정의 계급 불균형 해결 방안 계급 불균형 해결 방안 적용 (실습) 요약 계급 불균형 정의 여러 분류/예측 문제에서 자주 마주하게 되는 문제 중 하나가 바로 계급 불균형이다. 분류/예측 문제는 대부분 특정 계급(class, label)으로 분류하거나 예측하게 되는데, 학습 당시에 계급(이하 class) 별로 데이터 양이 매우 불균형할 경우를 계급 불균형(이하 class imbalance)라 부른다. 아쉽게도 실생활 데이터에서 계급 불균형 문제는 자주 발생한다. 예를 들어 사기 탐지(fraud detection), 이상치 탐지(anomaly detection)와 같은 분야나 암 판별이나 악성 코드 탐지와 같이 여러 ..