본문 바로가기

분류 전체보기11

XGBoost(Extreme Gradient Boosting)란? [오늘의 공부]오늘은 Gradient Boosting 중 많이 사용하는 모델 중 하나인 XGBoost(Extreme Gradient Boosting, 이하 xgb)에 대해 공부해보고자 한다.▶ xgb란2016년도에 처음 출시되었으며, gradient boosting의 철학을 따라가지만, 이것을 어떻게 하면 빠르고 대용량 데이터를 처리할 수 있을까에서 시작되었다. XGBoost란 “Extreme Gradient Boosting”을 의미하며 GBM의 성능, 스케일, 속도를 최적화하기 위해 개발된 알고리즘으로 빠른 수행, 스케일업 하기 위해 병렬처리를 수행한다. 단점으로는 gbm에 비해 성능이 조금 떨어질 수 있다는 점이다. ▶ 알고리즘 특징1) split finding algorithm기존의 의사결정나무는 .. 2025. 1. 6.
FineTuning Chat GPT 연동 Chatbot 개발 프로세스 정리 [오늘의 공부]오늘은 Chat GPT를 연동하여 FineTuning을 통해 Chatbot을 개발하는 연습을 해보고자 한다. ▶ 개발 과정1. OpenAI API 발급“https://openai.com/blog/openai-api” 해당 URL로 접속하여 우측 상단 본인 계정 클릭 후 View API Keys 선택Create new secret key를 통해 API 키 발급 해당 API는 무료 5$ 정도만 사용 가능하며, 이 금액이 넘어가면 유료로 전환하여 사용해야 함. 사용량을 확인하고 싶으면 좌측의 Usage를 클릭하면 확인 가능함.  2. github 다운로드해당 URL(https://github.com/hyokwan/chatgpt/tree/main)을 접속하여 다운로드 진행함. 3. 환경설정○ 우선.. 2025. 1. 5.
Gradient Boosting Machine(gbm)란? [오늘의 공부]오늘은 Gradient Boosting Machine(이하, gbm)에 대해 공부해보고자 한다.gbm을 공부하기 전 Adaboost(이하, 에이다부스트)에 대해 먼저 알아야 한다. ▶ 에이다부스트란Adaptive Boosting의 약자로, 가중치를 부여한 약한 분류기를 모아서 최종적인 강한 분류기를 생성하는 기법이다. ※ 약한 분류기(Weak)란 랜덤 추측보다는 약간 더 좋은 분류기로, 적절한 가이드만 정해지면 강력한 성능을 가진 모델로 향상된다. ○ 에이다부스트 프로세스학습 데이터 세트 준비약한 분류기 생성함. 이 약한 분류기는 잘 맞추는 케이스도 있고 못맞추는 케이스도 있다.가중치를 재결정함. 앞선 모델이 잘 못 맞추는 케이스에 집중할 수 있도록 가중치를 부여한다.새로운 약한 분류기를 .. 2025. 1. 4.
Random Forest(랜덤포레스트)란? [오늘의 공부]머신러닝에서 기본이라고 할 수 있는 Random Forest(이하 랜덤포레스트)에 대해 공부해보고자 한다. ▶ 랜덤포레스트란랜덤포레스트는 기존 배깅의 이점을 살리고 변수를 랜덤으로 선택하는 과정을 추가함으로써 개별 나무들의 상관성을 줄여서 예측력을 향상한 앙상블 모형으로, 베이스러너는 DT(Decision Tree)이며, 의사결정나무 여러 개를 학습하여 결합하면 랜덤포레스트가 된다. ※ 배깅 이점: 복원추출, bootstrap에 bias 낮고 variance 높은 복잡한 알고리즘들을 개별적으로 학습시켜 최종 결합하는 것이 특징이다.▶ 랜덤포레스트의 특징(1) 배깅: 복원추출을 통해서 원래 데이터의 숫자만큼 샘플링한다.(2) 변수를 랜덤하게 선택하고, bootstrap을 통해 선택된 데이터 .. 2024. 12. 25.