microsoft-sql-server.-modelowanie-i-eksploracja-danych scan.pdf

(11657 KB) Pobierz
1294205660.001.png
Spis treci
Wstp .................................................................................................... 9
Proces eksploracji danych .............................................................................................. 10
Instalacja i konfiguracja narzdzi ................................................................................... 12
Serwer SQL .............................................................................................................. 12
Arkusz kalkulacyjny Excel ....................................................................................... 15
Dodatek Data Mining do pakietu Office .................................................................. 15
Przykady ................................................................................................................. 16
Konwencje i oznaczenia ................................................................................................. 20
Cz I
Modelowanie ................................................................ 23
Rozdzia 1. Eksploracja danych jako technika wspomagania decyzji ........................ 25
Modelowanie wiata ....................................................................................................... 25
Obiekty, zdarzenia i reguy ...................................................................................... 26
Dane ......................................................................................................................... 27
Informacje ................................................................................................................ 27
Wiedza ..................................................................................................................... 29
Decyzje ..................................................................................................................... 31
Eksploracja danych ......................................................................................................... 32
Hipotezy ................................................................................................................... 32
Kopoty ze sformuowaniem problemu .................................................................... 33
Rozdzia 2. Analiza biznesowa ................................................................................. 35
Cele modelowania i eksploracji danych ......................................................................... 35
Opisywanie danych czy wspieranie decyzji? ............................................................ 36
Decydenci ................................................................................................................. 38
Zakres projektu eksploracji danych ................................................................................ 39
Dane ródowe ......................................................................................................... 40
Kontekst ................................................................................................................... 40
Sprecyzowanie spodziewanych wyników .................................................................... 42
Modele deskrypcyjne ............................................................................................... 43
Modele predykcyjne ................................................................................................. 43
Prawdopodobiestwo sukcesu projektu eksploracji danych ........................................... 44
Ocena ryzyka .................................................................................................................. 45
 
4
Microsoft SQL Server. Modelowanie i eksploracja danych
Rozdzia 3. Ocena danych ....................................................................................... 49
Dane ródowe ................................................................................................................ 49
Bdy pomiaru .......................................................................................................... 50
Przypadki, czyli to, co badamy ....................................................................................... 51
Profilowanie danych za pomoc usugi SQL Server Integration Services ...................... 54
Atrybuty i ich stany ........................................................................................................ 57
Atrybuty jednowartociowe i wielowartociowe ...................................................... 57
Atrybuty monotoniczne ............................................................................................ 59
Rozkad wartoci ...................................................................................................... 59
Integralno danych ........................................................................................................ 62
Duplikaty .................................................................................................................. 62
Zakres wartoci ........................................................................................................ 63
Zgodno ze wzorcem .............................................................................................. 63
Próbkowanie i reprezentatywno danych ...................................................................... 64
Próbkowanie danych ................................................................................................ 64
Zbieno do rzeczywistego rozkadu ...................................................................... 65
Odchylenie standardowe .......................................................................................... 67
Zmienno atrybutów tekstowych ............................................................................ 68
Brakujce dane ............................................................................................................... 69
Model brakujcych danych ....................................................................................... 70
Zalenoci pomidzy atrybutami .................................................................................... 73
Niezalene atrybuty .................................................................................................. 74
Nadmiarowe atrybuty ............................................................................................... 75
Anachronizmy .......................................................................................................... 76
Mierzenie informacji ...................................................................................................... 76
Bity ...........................................................................................................................77
Zaskoczenie .............................................................................................................. 77
Kontekst ................................................................................................................... 78
Rozdzia 4. Przygotowanie danych .......................................................................... 79
Przestrze stanów ........................................................................................................... 79
Atrybuty dyskretne ......................................................................................................... 81
Grupowanie .............................................................................................................. 81
Numerowanie stanów ............................................................................................... 84
Atrybuty porzdkowe ............................................................................................... 85
Atrybuty okresowe ................................................................................................... 86
Atrybuty cige ............................................................................................................... 86
Wartoci skrajne ....................................................................................................... 87
Normalizacja zakresu ............................................................................................... 87
Dyskretyzacja ........................................................................................................... 90
Serie danych ...................................................................................................................92
Trend ........................................................................................................................ 96
Okresowo i sezonowo ........................................................................................ 96
Szum ......................................................................................................................... 97
Rozdzia 5. Poprawa jakoci danych ....................................................................... 99
Uzupenienie wartoci .................................................................................................... 99
Wzbogacenie danych .................................................................................................... 103
Redukcja wymiarów ..................................................................................................... 105
Korelacje ................................................................................................................ 106
Spis treci
5
Dane dla modeli deskrypcyjnych .................................................................................. 108
Dane dla modeli predykcyjnych ................................................................................... 109
Zmiana proporcji .................................................................................................... 109
Dane na potrzeby analizy wariantowej ......................................................................... 111
Analiza wariantowa ................................................................................................ 111
Wydzielenie danych testowych .................................................................................... 113
Cz II
Eksploracja ................................................................ 117
Rozdzia 6. Techniki eksploracji danych ............................................................ 119
Zastosowania ................................................................................................................ 119
Dodatek Data Mining do pakietu Office ....................................................................... 121
Ocena i przygotowanie danych ródowych ........................................................... 121
Techniki eksploracji danych ......................................................................................... 126
Klasyfikacja ............................................................................................................ 126
Szacowanie ............................................................................................................. 136
Asocjacja ................................................................................................................ 141
Grupowanie ............................................................................................................ 145
Analiza sekwencyjna .............................................................................................. 151
Analiza wariantowa ................................................................................................ 152
Prognozowanie ....................................................................................................... 156
Rozdzia 7. Serwer SQL jako platforma eksploracji danych ................................ 161
Excel jako klient SQL Server Analysis Services .......................................................... 162
Narzdzia eksploracji zewntrznych danych .......................................................... 162
Praca z modelami eksploracji danych .................................................................... 184
Formuy arkusza Excel ........................................................................................... 191
Projekty eksploracji danych .......................................................................................... 192
Business Intelligence Development Studio ............................................................ 192
róda danych ......................................................................................................... 195
Widoki danych ródowych .................................................................................... 196
Struktury eksploracji danych .................................................................................. 199
Modele eksploracji danych ..................................................................................... 206
Zapytania predykcyjne ........................................................................................... 210
Zagniedanie przypadków .................................................................................... 213
Zarzdzanie serwerem SSAS i modelami eksploracji danych poprzez SQL
Server Management Studio .......................................................................................... 216
Usugi eksploracji danych serwera SQL ....................................................................... 218
Architektura ............................................................................................................ 219
Bezpieczestwo ...................................................................................................... 221
Integracja z pozostaymi usugami Business Intelligence ....................................... 223
Rozdzia 8. DMX ................................................................................................... 227
Terminologia ................................................................................................................ 227
Atrybut ................................................................................................................... 227
Warto i stan ......................................................................................................... 229
Przypadek ............................................................................................................... 229
Klucze .................................................................................................................... 230
Struktury eksploracji danych .................................................................................. 231
Modele eksploracji danych ..................................................................................... 232
6
Microsoft SQL Server. Modelowanie i eksploracja danych
Skadnia jzyka DMX .................................................................................................. 232
Tworzenie struktur eksploracji danych ................................................................... 233
Tworzenie modeli eksploracji danych .................................................................... 235
Przetwarzanie struktur i modeli eksploracji danych ............................................... 239
Odczytywanie zawartoci struktur i modeli eksploracji danych ............................. 243
Zapytania predykcyjne ........................................................................................... 245
Funkcje predykcyjne .............................................................................................. 251
Rozdzia 9. Naiwny klasyfikator Bayesa firmy Microsoft ........................................ 253
Omówienie ................................................................................................................... 253
Ograniczenia .......................................................................................................... 255
Parametry ............................................................................................................... 256
Zastosowania naiwnego klasyfikatora Bayesa ........................................................... 258
Badanie zalenoci pomidzy atrybutami .............................................................. 258
Klasyfikacja dokumentów ...................................................................................... 260
Rozdzia 10. Drzewa decyzyjne firmy Microsoft
i algorytm regresji liniowej firmy Microsoft .......................................... 267
Omówienie ................................................................................................................... 268
Ograniczenia .......................................................................................................... 272
Parametry ............................................................................................................... 273
Zastosowania drzew decyzyjnych ................................................................................ 275
Klasyfikacja klientów ............................................................................................. 275
Szacowanie potencjalnych zysków ........................................................................ 277
Asocjacja klientów i wypoyczanych przez nich filmów ........................................... 279
Rozdzia 11. Szeregi czasowe firmy Microsoft ......................................................... 281
Omówienie ................................................................................................................... 281
Ograniczenia .......................................................................................................... 285
Parametry ............................................................................................................... 286
Zastosowania szeregów czasowych firmy Microsoft .................................................... 288
Prognozowanie sprzeday ...................................................................................... 289
Prognozowanie sprzeday na podstawie przeplatanych serii danych ..................... 291
Prognozowanie sprzeday na podstawie danych odczytanych
z kostki wielowymiarowej ................................................................................... 292
Prognozowanie sprzeday na podstawie krótkich serii danych .............................. 293
Analiza wariantowa ................................................................................................ 295
Rozdzia 12. Algorytm klastrowania firmy Microsoft ................................................ 297
Omówienie ................................................................................................................... 297
Ograniczenia .......................................................................................................... 302
Parametry ............................................................................................................... 303
Zastosowania algorytmu klastrowania .......................................................................... 305
Analiza skupie komórek ....................................................................................... 305
Klasyfikacja komórek ............................................................................................. 309
Przygotowanie danych do dalszej eksploracji ........................................................ 312
Wykrywanie anomalii ............................................................................................ 314
Zgłoś jeśli naruszono regulamin