본문 바로가기

개발 관련 공부/머신러닝8

Gradient Boosting Machine(gbm)란? [오늘의 공부]오늘은 Gradient Boosting Machine(이하, gbm)에 대해 공부해보고자 한다.gbm을 공부하기 전 Adaboost(이하, 에이다부스트)에 대해 먼저 알아야 한다. ▶ 에이다부스트란Adaptive Boosting의 약자로, 가중치를 부여한 약한 분류기를 모아서 최종적인 강한 분류기를 생성하는 기법이다. ※ 약한 분류기(Weak)란 랜덤 추측보다는 약간 더 좋은 분류기로, 적절한 가이드만 정해지면 강력한 성능을 가진 모델로 향상된다. ○ 에이다부스트 프로세스학습 데이터 세트 준비약한 분류기 생성함. 이 약한 분류기는 잘 맞추는 케이스도 있고 못맞추는 케이스도 있다.가중치를 재결정함. 앞선 모델이 잘 못 맞추는 케이스에 집중할 수 있도록 가중치를 부여한다.새로운 약한 분류기를 .. 2025. 1. 4.
Random Forest(랜덤포레스트)란? [오늘의 공부]머신러닝에서 기본이라고 할 수 있는 Random Forest(이하 랜덤포레스트)에 대해 공부해보고자 한다. ▶ 랜덤포레스트란랜덤포레스트는 기존 배깅의 이점을 살리고 변수를 랜덤으로 선택하는 과정을 추가함으로써 개별 나무들의 상관성을 줄여서 예측력을 향상한 앙상블 모형으로, 베이스러너는 DT(Decision Tree)이며, 의사결정나무 여러 개를 학습하여 결합하면 랜덤포레스트가 된다. ※ 배깅 이점: 복원추출, bootstrap에 bias 낮고 variance 높은 복잡한 알고리즘들을 개별적으로 학습시켜 최종 결합하는 것이 특징이다.▶ 랜덤포레스트의 특징(1) 배깅: 복원추출을 통해서 원래 데이터의 숫자만큼 샘플링한다.(2) 변수를 랜덤하게 선택하고, bootstrap을 통해 선택된 데이터 .. 2024. 12. 25.
bagging(배깅)이란? ※[오늘의 공부]앙상블에서 중요한 bagginng(배깅)에 대해 공부해보고자 한다. ▶ 배깅이란앙상블의 핵심 키워드는 다양성이다. 다양성에는 데이터의 다양성과 모델의 다양성 2개가 존재하는데 배깅의 경우 데이터의 다양성을 주제로 한다.Bagging(Bootstrap Aggregating)이란 기존 학습 데이터로부터 랜덤하게 ‘복원추출’하여 동일한 사이즈의 데이터 세트를 여러개 만들어 앙상블을 구성하는 여러 모델을 학습시키는 방법이다. ※ 복원 추출 예시   * 여기서 bootstrap은 복원추출로 만들어진 새로운 데이터 세트이다.  * 우리가 원하는 개수만큼 복원추출을 통해 Bootstrap을 생성이 가능하다.▶ bootstrap 효과 (1) 학습관점: 데이터가 갖는 분포를 좋은 쪽으로 왜곡시킴. -> .. 2024. 12. 25.
Ensemble(앙상블)이란? [오늘의 공부]내가 인공지능을 처음 접했을 때부터 자주 사용하는 앙상블 알고리즘에 대해 공부해보고자 한다. ▶ 앙상블이란여러 개의 분류기를 생성하고, 그 예측을 결합함으로써 보다 정확한 예측을 도출하는 기법이다. ▶ 개요특정 알고리즘이 모든 데이터에 대한 성능 즉, 분류나 예측을 진행할 때 항상 1등인 알고리즘은 존재할까? 라는 궁금증이 생겼다.조사를 해보니 JMLR에 발표한 논문 중 121개의 데이터 세트를 171개의 알고리즘(boosting 제외)으로 30번 학습을 한 결과가 있는데 결론을 말하자면, 상대적으로 RF, SVM 계열이 높게 나오긴 했으나 절대적으로 성능이 좋은 알고리즘은 없다는 것을 보여준다.결론적으로 최적의 알고리즘은 문제의 목적, 데이터의 형태 등을 종합적으로 고려하여 선택해야 하며.. 2024. 12. 17.