TPDregresjawieloraka.pdf
(
1340 KB
)
Pobierz
Metody predykcji – analiza regresji
JERZY STEFANOWSKI
Instytut Informatyki
Politechnika Poznańska
TPD – 2008/2009
Przebieg wykładu
1.
Predykcja z wykorzystaniem analizy regresji.
1.
Przypomnienie wiadomości z poprzednich
przedmiotów.
2.
Ocena poprawności modelu regresji liniowej.
3.
Regresja wielowymiarowa.
4.
Regresja nieliniowa.
5.
Selekcja zmiennych.
•
Uwagi: proszę odwołać się do przedmiotu
„Statystyka i analiza danych” studia inżynierskie.
Modelowanie regresji
• Metoda szacowania wartości liczbowej
zmiennej zależnej (objaśnianej, wynikowej)
y
na
podstawie wartości zmiennych niezależnych
x
.
y
x
• Badamy zależność warunkową
• Formalnie poszukujemy modelu
y
=
f
( β
x
)
• Modele lokalne – „locally weighted regression”
p
j
∑
=
y
=
α
+
f
( β
x
)
j
1
Przykład – ceny domów przykład z R
•
W zbiorze danych
homedata
(z pakietu R) ceny 6841 domów
Maplewood (New Jersey) z lat: 1970 i 2000. Interesuje nas zależność
pomiędzy cenami domów z tych lat.
Regresja – model liniowy
•
Analityczny sposób przyporządkowania wartości
zmiennej zależnej konkretnym wartościom
zmiennych niezależnych.
•
Liniowa regresja prosta
→
najprostszy rodzaj
regresji, w których zależność zmiennych można
opisać za pomocą linii prostej.
y
ˆ
=
β
⋅
x
+
β
+
ε
1
0
gdzie
β
1
jest
współczynnikiem kierunkowym
,
β
0
wyraz wolny (punkt przecięcia z osią rzędnych);
x – zmienna niezależna, y – zmienna zależna
(objaśniana, przewidywana),
ε
-błąd losowy.
Intuicja poszukiwania regresji liniowej
•Prz kład z wykładu z Ekonometrii (UCI Berkley):
•
Do high income households consume more or less electricity than lower
income households?
•
Take a sample of households. Observe the energy consumption and
income of each household.
Która linia podsumowująca ogólny
trend w danych jest najlepsza?
Liniowa prosta regresji - MNK
• Rzeczywiste dane
•Wa tość teoretyczna funkcji regresji
(
x
,
y
),...,
(
x
,
y
).
1
1
n
n
y
=
ˆ
(
)
f
x
y
−
y
ˆ
•Błąd oszacowania tzw. wartość resztowa
lub rezyduum.
i
i
•
Liniowa regresja prosta
→
wartości rezyduów powinny
być jak najmniejsze dla wszystkich i=1,…,
n
.
•
Wskaźnik rozproszenia
→
suma kwadratów rezyduów.
2
n
i
S
=
∑
=
(
y
−
y
ˆ
)
i
i
1
•
Dla liniowego wykresu dużych rezyduów nie ma być
zbyt wiele
→
metoda najmniejszych kwadratów!
daje ona najlepsze liniowe nieobciążone estymatory
parametrów regresji
Przykład MNK
• Które residua (suma kwadratów) są najmniejsza?
•
Proste sumowanie: I -5+2+3=0; II -1+2-1=0; III -2+2+0
•
MNK: I 25+4+9=38; II: 1+4+1=6; III 4+4=8
Własności oszacowania MNK
• Linia przechodzi przez wartości średnie:
ˆ
y
=
β
⋅
x
+
β
=
β
⋅
x
+
(
y
−
β
⋅
x
)
=
y
1
0
1
1
• Wartość oczekiwana residuów jest zerowa
n
i
∑
e
1
1
1
i
n
i
=
1
∑
∑
∑
e
=
=
(
y
−
y
ˆ
)
=
y
−
(
β
x
+
β
)
=
y
−
(
β
x
+
β
)
=
y
−
y
=
0
i
i
i
1
0
1
0
=
1
n
n
n
n
• Dobra własność: linia jest „średnio” właściwa.
Przykład ilustracyjny (samochody)
•
W firmie produkującej samochody przeprowadzono analizę
sprzedaży samochodów z ostatniego miesiąca. Zebrano dane
od 12 dealerów zajmujących się sprzedażą samochodów tej
firmy o wielkości sprzedaży za ostatni miesiąc (zmienna
zależna
Y
) oraz czasie wykupionej reklamy w ostatnim
miesięcy (zmienna
niezależna
X
).
Nr dealera
y
x
1
129
18
2
119
15
3
159
22
4
148
23
5
131
17
6
120
16
7
161
25
8
174
26
9
134
20
10
163
24
11
143
19
12
155
25
Plik z chomika:
Lexor2
Inne pliki z tego folderu:
cwicz-inddrzew.pdf
(128 KB)
DMpreprocessingdodatkowe.pdf
(2240 KB)
DMwstep.pdf
(699 KB)
DMmultipleclassifiers.pdf
(1715 KB)
CASESTUDY12.pdf
(183 KB)
Inne foldery tego chomika:
Bazy danych 1 (BD1)
HDA - Hurtownie Danych
Zgłoś jeśli
naruszono regulamin