728x90
안녕하세요 뚜디 입니다:)
다변수 선형 회귀 분석
이번 포스팅에서는 변수가 하나가 아닌, 여러개의 변수를 사용하는 다변수 선형회귀에 대해 알아보도록 하겠습니다.
Hypothesis 함수는 Wx+b 여기서 W는 weight b는 bias로 간단한 일차식으로 표현이 가능 (b는 생략가능)
이것이 가상함수 즉, 우리의 모델, 예측이라고 정의
Cost Function은 우리의 예측과 실제값의 차이 (Wx-y), 이 차이를 제곱한 것을 평균을 낸 것으로 cost를 정의
제곱하는 이유는 마이너스 값이 나오지 않게 하기 위함
cost를 최소화하는 W를 찾아가는 과정이 머신러닝의 핵심인 바로 학습과정이라 말할수 있다.
Gradient descent는 cost가 최소화되는 W를 찾아주는 가장 대표적인 알고리즘
이전의 W값에서 Gradient 값에 알파값을 곱한 값을 빼서 지속적으로 W를 업데이트 즉, cost가 최소화되도록 W를 최소화
Prediction exam score
시험점수를 예측하는 모델이 있을때, 입력이 1개, 예측하는 점수도 1개라고 과정
이럴경우 하나의 변수에 대해서 하나의 예측치를 갖는다. 하지만 공부한 시간만 가지고 예측을 하는것보다 좀 더 다양한 변수를 가지고 예측하는게 훨씬 예측을 잘할수 있다.
시험점수를 예측하는데 세개의 변수를 하용하는 모델을 확인해보면,
x1,x2,x3를 통해 y를 예측하기 더 쉬워질겁니다.
따라서 변수가 여러개일때 Hypothesis는 변수가 늘어난 개수만큼 가중치를 필요로 하게된다.
Cost Function은 이전과 다르지않고 Hypothesis를 그대로 넣어준값
변수가 여러개가 되면 늘어난 만큼 가중치의 개수도 늘어나게 된다.
하지만 변수가 무수히 많게된다면 증가한 변수의 따른 가중치들의 값이 굉장히 많을때
Matrix를 활용하면 이것을 간단하게 풀어낼수 있게된다.
Matrix
이 문제를 해결하기 위해서 Matrix의 곱셈 즉, 행렬의 곱셈을 활용(Dot Product)
변수가 증가한 Hypothesis는 일일이 가중치를 나열할 필요없이 H=XW로 간단하게 표현할수있다.
우리의 가설 함수는 x와 w를 곱한 값으로 표시가 될것이고, 이것이 Data가 다섯개일경우의 표시되는 가설함수
하지만 일일이 이렇게 써줄경우 매우 불편하게 될거고 이 부분을 Matrix로 표현한다면, H=XW로 표현이 가능(즉, 변수의 개수가 몇개든 인스턴스의 개수가 몇개든 데이터의 개수가 몇개든 상관없이 동일한 표현이 가능)
728x90
'Machine Learning > Basic Machine Learning' 카테고리의 다른 글
[ML/DL] 로지스틱 회귀/분류 (Logistic Regresion/Classification) (0) | 2022.01.21 |
---|---|
[ML/DL]다변수 선형 회귀 분석 Multi-variable Linear Regression(2) (0) | 2022.01.20 |
[ML/DL] 선형 회귀 분석 및 비용 최소화 방법(2) (0) | 2021.10.29 |
[ML/DL] 선형 회귀 분석 및 비용 최소화 방법 (0) | 2021.10.19 |
[ML/DL] 선형회귀(Linear Regression)를 TensorFlow로 구현하기 (0) | 2021.10.18 |