[오늘의 공부]
오늘은 회귀 분석에 대한 공부를 진행해보고자 한다.
▶ 회귀분석이란
회귀분석(Regression)은 가장 넓은 의미로는 독립변수(x)로 종속변수(y)를 예측하는 것임.
독립변수와 종속변수
체중이 식사량에 따라 달라진다고 가정하면, 식사량이 많아지면 체중도 증가하고, 식사량이 감소하면 체중도 감소함.
그러면 체중은 식사량에 종속되었다고 할 수 있으며, 체중은 종속변수가 됨.
추가적으로 가정에서 식사량이 왜 변하는지에 대한 내용이 없으므로 식사량은 독립적으로 변하는 특징을 갖고, 독립변수가 됨.
회귀분석을 진행하기 위한 전제조건은 4가지 기본 가정이 어긋나지 않아야 함.
독립성 : 잔차 사이에는 상관관계 없이 독립적이어야함. 잔차와 독립변수 간 상관관계가 없어야 함.
정규성 : 잔차가 평균이 0인 정규분포를 띠어야 함.
등분산성 : 잔차의 분산은 독립변수와 무관하게 일정해야함.
- 잔차의 등분산성이 성립하지 않을 경우 가중최소제곱법을 사용해 잔차의 이분산성을 해결할 수 있음.
다중공선성 : 독립변수 간의 강한 상관관계가 있을 때의 성질을 의미하는 것으로 이러한 성질이 없어야 회귀분석이 가능함.
※ 잔차: 표본으로 추정한 회귀식과 실제 관측값의 차이를 말함.
※ 등분산성: 분산분석을 통해 서로 다른 두 개 이상의 집단을 비교할 때, 해당 집단들이 만족되어야되는 조건 중 한가지로 분산이 같음을 의미함.
※ 이분산성: 데이터에 일반적인 최소제곱법을 적용할 경우 추정통계량의 신뢰도가 상실되어 회귀계수의 표준오차를 과소추정 또는 과대추정하게 되는 성질을 말함.
▶ 머신러닝에서의 회귀분석 의미
회귀분석은 종속 변수와 하나 이상의 독립 변수 간의 미래 사건을 예측하는 방법임.
- 예를 들어 난폭 운전과 운전자에 의한 교통사고 총 건수 사이의 상관관계 예측이나 비즈니스 상황에서 특정 금액을 광고에 사용했을 때 판매에 미치는 영향 사이의 관계를 예측하는데 사용할 수 있음.
▶회귀분석 특징
회귀분석은 실제 응용 프로그램에서 넓게 활용되고 있으며, 연속 숫자를 포함하는 모든 머신러닝 문제 해결에 필수적임.
예시
- 금융 관련 예측(주택 가격 또는 주가)
- 판매 및 프로모션 예측
- 자동차 테스트
- 날씨 분석 및 예측
- 시계열 예측
회귀분석은 데이터 모델링을 사용하여 머신러닝에서 회귀 문제를 해결하는 가장 좋은 방법임.
차트에 데이터 포인트를 표시하고 이들을 관통하는 가장 적합한 선을 그어 각 데이터 포인트의 오류 가능성을 예측할 수 있음.
즉, 각 데이터 점이 선에서 멀리 떨어져 있을수록 예측 오차가 커짐(이 가장 적합한 선을 회귀선이라 부르기도 함).
▶회귀분석의 다양한 유형
1) 선형회귀(Linear Regression)
머신러닝에서 가장 일반적인 회귀분석 유형이라고도 할 수 있음.
예측 변수와 종속 변수로 구성되며, 이 둘은 선형 방식으로 연관지어져 있음.
위에서 설명한 가장 적합한 선을 사용하며, 변수들이 서로 선형적으로 연결되어 있는 경우 사용함.
특이치에 영향 받기 쉬워 빅데이터 집합을 분석하는데 사용하면 안됨.
2) 로지스틱 회귀(Logistic Regression)
종속변수에 이산 값이 있는 경우, 다시 말해 0 또는 1, 참 또는 거짓, 흑 또는 백 등의 두가지 값 중 하나만 취할 수 있는 경우 로지스틱 회귀를 사용하여 데이터를 분석할 수 있음.
S자형 곡선을 사용하여 대상 변수와 독립 변수 사이의 관계를 표시함.
대상 변수에서 거의 동일한 값이 발생하는 대규모 데이터 세트에서 가장 효과가 있으며 이 경우, 변수들의 순위를 지정할 때 문제를 일으킬 수 있기 때문에 서로 상관성이 높은 독립 변수들이 데이터 집합에 포함되면 안됨.
- 이것은 다중공선성이라고 알려진 현상으로, 회귀 분석에서 사용된 모델의 일부 예측 변수가 다른 예측 변수와 상관 정도가 높아, 데이터 분석 시 부정적인 영향을 미치는 현상을 의미함.
3) 다중 선형 회귀
하나가 아닌 여러 개의 특징을 활용해 회귀 모델을 만드는 것을 다중 선형 회귀라 함.
다중 선형 회귀 예측 함수는 다음과 같음.
여기서 특성은 총 p+1개, 그에 따라 가중치도 p+1개임.
선형 회귀에서 최적의 가중치와 편향을 찾아 위해선 라벨값(y)과 예측값(y^)사이의 평균제곱오차(MSE)를 최소화하는 파라미터 w와 b를 찾으면 됨.
다중 선형 회귀 모델은 과적합이 되는 경향이 있음. 이를 해결하기 위한 것이 라쏘와 릿지임.
다음 글은 라쏘, 릿지 및 엘라스틱넷에 대해 공부해보고자 한다.
▶ 참고자료