본문 바로가기

머신러닝5

회귀분석이란 무엇인가? [오늘의 공부]오늘은 회귀 분석에 대한 공부를 진행해보고자 한다.▶ 회귀분석이란회귀분석(Regression)은 가장 넓은 의미로는 독립변수(x)로 종속변수(y)를 예측하는 것임. 독립변수와 종속변수체중이 식사량에 따라 달라진다고 가정하면, 식사량이 많아지면 체중도 증가하고, 식사량이 감소하면 체중도 감소함.그러면 체중은 식사량에 종속되었다고 할 수 있으며, 체중은 종속변수가 됨.추가적으로 가정에서 식사량이 왜 변하는지에 대한 내용이 없으므로 식사량은 독립적으로 변하는 특징을 갖고, 독립변수가 됨. 회귀분석을 진행하기 위한 전제조건은 4가지 기본 가정이 어긋나지 않아야 함.독립성 : 잔차 사이에는 상관관계 없이 독립적이어야함. 잔차와 독립변수 간 상관관계가 없어야 함.정규성 : 잔차가 평균이 0인 정규분포.. 2025. 1. 10.
CatBoost란? [오늘의 공부]오늘은 Gradient Boosting 중 범주형 변수가 많을 때 많이 사용하는 CatBoost에 대해 공부해보고자 한다. ▶ CatBoost란Categorical Boosting의 약자로 2017년 4월에 배포되었고, 특정 회사에서 개발한 모델로 기업이 운영하여 사이트가 잘 되어 있음. gbm의 2가지 큰 문제점을 보완하기 위해 개발함.  1) Prediction Shifttrain 데이터에 대한 조건부 확률과 test 데이터에 대한 조건부 확률이 달라 오버피팅이 발생한다는 것임. 2) Target Leakage어떤 객체의 타겟 변수가 해당하는 객체의 피처 벨류를 계산하는데 사용되므로써 오버피팅이 발생할 수 있다는 것임.간단하게 말하면 정답 값(y)가 피처 벨류를 계산하는데 사용된다는 말.. 2025. 1. 8.
LGBM(Light Gradient Boosting Machine)이란? [오늘의 공부]오늘은 Gradient Boosting 중 내가 가장 좋아하고 자주 사용했던 LGBM(Light Gradient Boosting Machine, 이하 lgbm)에 대해 공부해보고자 한다. ▶  LGBM(Light Gradient Boosting Machine)이란?전통적인 gbm은 모든 피처, 객체들에 대해 스캔을 하고 그레디언트를 측정함. 그래서 시간이 오래 걸림.xgboost는 전체를 버켓이라는 단위로 나눠 그 버켓 안에서 탐색을 최적의 대안을 찾음.lgbm에서 모든 데이터 포인트를 스캔하지 않기 위해 Gradient-based One-Side Sampling(GOSS)을 통해 완화하며 모든 피처들을 효율적으로 사용하기 위해 Exclusive Feature Bundling(EFB)를 사.. 2025. 1. 7.
XGBoost(Extreme Gradient Boosting)란? [오늘의 공부]오늘은 Gradient Boosting 중 많이 사용하는 모델 중 하나인 XGBoost(Extreme Gradient Boosting, 이하 xgb)에 대해 공부해보고자 한다.▶ xgb란2016년도에 처음 출시되었으며, gradient boosting의 철학을 따라가지만, 이것을 어떻게 하면 빠르고 대용량 데이터를 처리할 수 있을까에서 시작되었다. XGBoost란 “Extreme Gradient Boosting”을 의미하며 GBM의 성능, 스케일, 속도를 최적화하기 위해 개발된 알고리즘으로 빠른 수행, 스케일업 하기 위해 병렬처리를 수행한다. 단점으로는 gbm에 비해 성능이 조금 떨어질 수 있다는 점이다. ▶ 알고리즘 특징1) split finding algorithm기존의 의사결정나무는 .. 2025. 1. 6.