Regression
Regression
X์ Y ์ฌ์ด์ relationship์ ๋ถ์ํ๋ statistical model
X = ํ๋ ์ด์์ independent/explanatory variables
Y = dependent, target, explanatory variables, ์ฆ ์ฐ๋ฆฌ๊ฐ ์์ธกํ๊ณ ์ถ์ ๊ฒ
x๊ฐ์ ๋ณํ์ ๋ฐ๋ฅธ Y๊ฐ์ ์์ธกํ๊ธฐ ์ํด, ๋ ๋์๊ฐ X์ Y ๊ฐ์ relationship์ explanationํ๊ธฐ ์ํด!
๋ฐ์ดํฐ์
์ ํ์ตํ์ฌ ์์ง๋ชจ๋ฅด๋ parameter a, b๊ฐ์ ๊ตฌํด๋ธ๋ค.
์๋ฅผ ๋ค์ด Height = a + b(Age) ๋ผ๊ณ ํด๋ณด์.
Age๊ฐ ์ปค์ง ์๋ก Height๋ ์ด๋์ ๋ ๋น๋กํด์ ์ปค์ง ๊ฒ์ด๋ค. ์ค์ ๋ก ๋ฐ์ดํฐ๋ฅผ ์ฌ๋ถ๋ฉด ์์ ํ์ํด๋ณด๋ฉด ๊ทธ๋ํ์ ๊ธฐ์ธ๊ธฐ๊ฐ ์์์ธ ํํ์ ๊ทธ๋ํ๊ฐ ๊ทธ๋ ค์ง๋ค.
์ฆ, X์ Y ์ฌ์ด์ relationship๋ฅผ ์ผ๋ฐํํ๋ pattern์ ๊ตฌํ๋ ๊ฒ์ด regression์ด๋ค.
๊ทธ๋ฆฌ๊ณ ํ์ต์ ํตํด ์ค์ค๋ก relationship function์ ์ฐพ๋ ๊ฒ์ด ๋ฐ๋ก Machine Learning์ด๋ค.
์ฐ๋ฆฌ๊ฐ ํ๋ ๊ฒ์ Linear regression ์ด๋ฏ๋ก input variable๊ณผ output variable ์ฌ์ด์ ๊ด๊ณ๊ฐ linear relationship์ด๋ผ๊ณ ๊ฐ์ ํ๋ค.
Process
- Hypothesis
์ฐ๋ฆฌ๊ฐ Weight์ Height ์ฌ์ด์ relationship์ ์ฐพ๊ณ ์ ํ ๋, ๊ทธ ๋์ Linear relationship์ ๊ฐ์ง๋ฏ๋ก ๋ค์๊ณผ ๊ฐ์ basic hypothesis function์ ์ธ์ธ ์ ์๋ค.
H(x) = Wx + b
- Learning
์ต์ ์ relation function์ ์ฐพ๊ธฐ ์ํด W, b๊ฐ์ ์ฐพ์์ผ ํ๋ค.
W,b๊ฐ์ ๋ฐ๊ฟ๊ฐ๋ฉฐ BEST STRAIGHT LINE(regression function)์ ์ฐพ๋๋ค!
ML ๊ด์ ์์ ๋ณด๋ฉด
- ๊ฐ variable X๊ฐ outcome Y์ ์ด๋ป๊ฒ ์ํฅ์ ๋ฏธ์น๋์ง ๋ณด๊ณ
- (Prediction) variable๊ณผ outcome ์ฌ์ด์ ๊ด๊ณ๋ณด๋ค๋ ๋ฏธ๋์ events๋ฅผ ์ ํํ๊ฒ ์์ธกํ๋๋ฐ ์ง์คํ๋ค!
ํด์ํ๊ธฐ ์ฌ์์ ๋์ค์ ์ผ๋ก, ๋๋ฆฌ ์ฌ์ฉ๋๋ ๊ธฐ๋ฒ์!
์ฃผ๋ก SPSS, SAS, R Program, Python, Matlab, STATA, Excel ๋ฑ์ ๋๊ตฌ๋ฅผ ์ฌ์ฉํจ
Types
- Linear Regression - input variables์ ์๋ฅผ ๊ธฐ์ค์ผ๋ก ๋๋์
- simple linear regression - input variable ํ๋ (X)
- multiple linear regression - input variable ์ฌ๋ฌ๊ฐ (X1, X2...)
- Research์ ๋ชฉ์ ์ ๊ธฐ์ค์ผ๋ก ๋๋ ๋ณด์
- Regression Problem
- ํ ์ ํ์ด ๋ช ๋๋ ํ๋ฆด๊น
- ์ผ๋ง์ ํ๋ฆด๊น
- Classification Problem (=Logistic Regression)
- ๊ณ ๊ฐ์ด ์ ํ์ ๊ตฌ๋งคํ ๊น ํ์ง ์์๊น
- ๋น๊ฐ ์ฌ๊น, ์ค์ง ์์๊น
- Regression Problem
Big Data Analytics
-> Variables๊ณผ Records๊ฐ ๋งค์ฐ๋งค์ฐ ๋ง์ ๋!!!! ๋ ๋ง์ Computations์ ํด์ผํด์ ๋์ฑ powerfulํ ์ปดํจํฐ(CPU, GPU, Memory)๊ฐ ํ์ํจ
์ผ๋ง๋ Big ํด์ผ Big data์ธ๊ฐ
=> Petabyte
ํ์ง๋ง ๋จ์ํ ํฌ๊ธฐ๊ฐ ํฐ ๊ฒ์ ๋ํ ๊ฐ๋ ์ด ์๋๋ผ Phenomenon Descriptive์ ๋ํ ๊ฐ๋ !!
3Vs : Variety, Velocity, Volume
General Procedures
cleaning&integration -> [Cleaned data] -> selection&transformation -> [Prepared data] ->data mining -> [Pattern] evaluation -> [Knowledge]
'๐ก๐ธ๐ธ๐ถ5: ๐ฆ๐๐๐๐ถ ๐ฐ๐๐พ๐ > ๊ฒฝ์์ ๋ณด์์คํ (BUSS215)' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[๊ฒฝ์์ ๋ณด์์คํ ] 3. Marketing Research (0) | 2022.10.24 |
---|---|
[๊ฒฝ์์ ๋ณด์์คํ ] 1. Artificial Intelligence (0) | 2022.10.23 |