[๊ฒฝ์์ ๋ณด์์คํ ] 2. Regression
Regression
Regression
X์ Y ์ฌ์ด์ relationship์ ๋ถ์ํ๋ statistical model
X = ํ๋ ์ด์์ independent/explanatory variables
Y = dependent, target, explanatory variables, ์ฆ ์ฐ๋ฆฌ๊ฐ ์์ธกํ๊ณ ์ถ์ ๊ฒ
x๊ฐ์ ๋ณํ์ ๋ฐ๋ฅธ Y๊ฐ์ ์์ธกํ๊ธฐ ์ํด, ๋ ๋์๊ฐ X์ Y ๊ฐ์ relationship์ explanationํ๊ธฐ ์ํด!
๋ฐ์ดํฐ์
์ ํ์ตํ์ฌ ์์ง๋ชจ๋ฅด๋ parameter a, b๊ฐ์ ๊ตฌํด๋ธ๋ค.
์๋ฅผ ๋ค์ด Height = a + b(Age) ๋ผ๊ณ ํด๋ณด์.
Age๊ฐ ์ปค์ง ์๋ก Height๋ ์ด๋์ ๋ ๋น๋กํด์ ์ปค์ง ๊ฒ์ด๋ค. ์ค์ ๋ก ๋ฐ์ดํฐ๋ฅผ ์ฌ๋ถ๋ฉด ์์ ํ์ํด๋ณด๋ฉด ๊ทธ๋ํ์ ๊ธฐ์ธ๊ธฐ๊ฐ ์์์ธ ํํ์ ๊ทธ๋ํ๊ฐ ๊ทธ๋ ค์ง๋ค.
์ฆ, X์ Y ์ฌ์ด์ relationship๋ฅผ ์ผ๋ฐํํ๋ pattern์ ๊ตฌํ๋ ๊ฒ์ด regression์ด๋ค.
๊ทธ๋ฆฌ๊ณ ํ์ต์ ํตํด ์ค์ค๋ก relationship function์ ์ฐพ๋ ๊ฒ์ด ๋ฐ๋ก Machine Learning์ด๋ค.
์ฐ๋ฆฌ๊ฐ ํ๋ ๊ฒ์ Linear regression ์ด๋ฏ๋ก input variable๊ณผ output variable ์ฌ์ด์ ๊ด๊ณ๊ฐ linear relationship์ด๋ผ๊ณ ๊ฐ์ ํ๋ค.
Process
- Hypothesis
์ฐ๋ฆฌ๊ฐ Weight์ Height ์ฌ์ด์ relationship์ ์ฐพ๊ณ ์ ํ ๋, ๊ทธ ๋์ Linear relationship์ ๊ฐ์ง๋ฏ๋ก ๋ค์๊ณผ ๊ฐ์ basic hypothesis function์ ์ธ์ธ ์ ์๋ค.
H(x) = Wx + b
- Learning
์ต์ ์ relation function์ ์ฐพ๊ธฐ ์ํด W, b๊ฐ์ ์ฐพ์์ผ ํ๋ค.
W,b๊ฐ์ ๋ฐ๊ฟ๊ฐ๋ฉฐ BEST STRAIGHT LINE(regression function)์ ์ฐพ๋๋ค!
ML ๊ด์ ์์ ๋ณด๋ฉด
- ๊ฐ variable X๊ฐ outcome Y์ ์ด๋ป๊ฒ ์ํฅ์ ๋ฏธ์น๋์ง ๋ณด๊ณ
- (Prediction) variable๊ณผ outcome ์ฌ์ด์ ๊ด๊ณ๋ณด๋ค๋ ๋ฏธ๋์ events๋ฅผ ์ ํํ๊ฒ ์์ธกํ๋๋ฐ ์ง์คํ๋ค!
ํด์ํ๊ธฐ ์ฌ์์ ๋์ค์ ์ผ๋ก, ๋๋ฆฌ ์ฌ์ฉ๋๋ ๊ธฐ๋ฒ์!
์ฃผ๋ก SPSS, SAS, R Program, Python, Matlab, STATA, Excel ๋ฑ์ ๋๊ตฌ๋ฅผ ์ฌ์ฉํจ
Types
- Linear Regression - input variables์ ์๋ฅผ ๊ธฐ์ค์ผ๋ก ๋๋์
- simple linear regression - input variable ํ๋ (X)
- multiple linear regression - input variable ์ฌ๋ฌ๊ฐ (X1, X2...)
- Research์ ๋ชฉ์ ์ ๊ธฐ์ค์ผ๋ก ๋๋ ๋ณด์
- Regression Problem
- ํ ์ ํ์ด ๋ช ๋๋ ํ๋ฆด๊น
- ์ผ๋ง์ ํ๋ฆด๊น
- Classification Problem (=Logistic Regression)
- ๊ณ ๊ฐ์ด ์ ํ์ ๊ตฌ๋งคํ ๊น ํ์ง ์์๊น
- ๋น๊ฐ ์ฌ๊น, ์ค์ง ์์๊น
- Regression Problem
Big Data Analytics
-> Variables๊ณผ Records๊ฐ ๋งค์ฐ๋งค์ฐ ๋ง์ ๋!!!! ๋ ๋ง์ Computations์ ํด์ผํด์ ๋์ฑ powerfulํ ์ปดํจํฐ(CPU, GPU, Memory)๊ฐ ํ์ํจ
์ผ๋ง๋ Big ํด์ผ Big data์ธ๊ฐ
=> Petabyte
ํ์ง๋ง ๋จ์ํ ํฌ๊ธฐ๊ฐ ํฐ ๊ฒ์ ๋ํ ๊ฐ๋ ์ด ์๋๋ผ Phenomenon Descriptive์ ๋ํ ๊ฐ๋ !!
3Vs : Variety, Velocity, Volume
General Procedures
cleaning&integration -> [Cleaned data] -> selection&transformation -> [Prepared data] ->data mining -> [Pattern] evaluation -> [Knowledge]