300x250
<Linear Regression>
→ Linear Predictor Function 사용, dependent variable y와 independent variable(s) x 존재
→ Dataset 필요!
→ Supervised Learning
1. Simple Linear Regression
- single variable x (vector)
- x를 알고 있을 때, y값을 예측하고 싶은 경우
2. Multiple Linear Regression
- multiple variables x (vectors)
- x_1, x_2... 등의 독립변수를 알고 있을 때, y값을 예측하고 싶은 경우
3. Linear Regression의 목표 : features간의 선형적 관계를 찾음
H(x) : Dependent Variable (what we are trying to predict or estimate)
x : Independent Variable (we use to make predictions)
4. Optimal Model (Green Line)을 어떻게 찾을 것인가?
- MSE (Mean Squared Error) : 에러의 제곱의 평균의 합!
→ cost-function : 작을수록 error↓, 예측을 잘한 것!
5. Optimization Problem : 최적화 알고리즘 -> cost-function을 최소화!
1) Design Matrix Approach (Linear Algebra) : 행렬을 이용하는 것으로, 정확하지만 matrix 크기가 커질수록 (data가 많아질수록) 느려짐
2) Gradient Descent : Iterative approach, 데이터의 크기가 커도 빠름
<Gradient Descent>
C(b) : Cost Function
b_0, b_1 : parameters
- Learning-rate : 작으면 수렴시간이 오래걸리지만 정확하고, 크면 빠르지만 부정확하거나 발산할 수 있음
<Linear Regression - Parameters> → Analysis
1. R squared value : 0에서 1 사이의 값을 가지며, 높을수록 data간의 선형성이 높은 것이다.
- r = 1 : perfect linear relationship
- r = 0 : no linear relationship
2. RSS (Residual Sum of Squares) : 1부터 n까지 에러의 제곱의 합
3. TSS (Total Sum of Squares) : Total variance in y, 즉 y값의 변동량 (variance : 분산)
728x90
최근댓글