300x250

<Linear Regression>

→ Linear Predictor Function 사용, dependent variable y와 independent variable(s) x 존재

→ Dataset 필요!

→ Supervised Learning

1. Simple Linear Regression

  • single variable x (vector)
  • x를 알고 있을 때, y값을 예측하고 싶은 경우

2. Multiple Linear Regression

  • multiple variables x (vectors)
  • x_1, x_2... 등의 독립변수를 알고 있을 때, y값을 예측하고  싶은 경우

3. Linear Regression의 목표 : features간의 선형적 관계를 찾음

 

H(x) : Dependent Variable (what we are trying to predict or estimate)

x : Independent Variable (we use to make predictions)

 

 

 

 

4. Optimal Model (Green Line)을 어떻게 찾을 것인가?

  • MSE (Mean Squared Error) : 에러의 제곱의 평균의 합!

 

→ cost-function : 작을수록 error↓, 예측을 잘한 것!

 

5. Optimization Problem : 최적화 알고리즘 -> cost-function을 최소화!

 

1) Design Matrix Approach (Linear Algebra) : 행렬을 이용하는 것으로, 정확하지만 matrix 크기가 커질수록 (data가 많아질수록) 느려짐

 

2) Gradient Descent : Iterative approach, 데이터의 크기가 커도 빠름


<Gradient Descent>

 

C(b) : Cost Function

b_0, b_1 : parameters

 

  • Learning-rate : 작으면 수렴시간이 오래걸리지만 정확하고, 크면 빠르지만 부정확하거나 발산할 수 있음

 


<Linear Regression - Parameters>        →    Analysis

1. R squared value : 0에서 1 사이의 값을 가지며, 높을수록 data간의 선형성이 높은 것이다.

 

  • r = 1 : perfect linear relationship
  • r = 0 : no linear relationship

2. RSS (Residual Sum of Squares) : 1부터 n까지 에러의 제곱의 합

 

3. TSS (Total Sum of Squares) : Total variance in y, 즉 y값의 변동량 (variance : 분산)

 

728x90
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기