Badanie_danych_Raport_z_pierwszej_linii_dzialan_badada.pdf

(1788 KB) Pobierz
Tytuł oryginału: Doing Data Science: Straight Talk from the Frontline
Tłumaczenie: Zdzisław Płoski
ISBN: 978-83-246-9626-0
© 2015 Helion S.A.
Authorized Polish translation of the English edition of Doing Data Science, ISBN 9781449358655 © 2014
Cathy O’Neil and Rachel Schutt.
This translation is published and sold by permission of O’Reilly Media, Inc., which owns or controls all
rights to publish and sell the same.
All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means,
electronic or mechanical, including photocopying, recording or by any information storage retrieval system,
without permission from the Publisher.
Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej
publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie kopii metodą kserograficzną,
fotograficzną, a także kopiowanie książki na nośniku filmowym, magnetycznym lub innym powoduje
naruszenie praw autorskich niniejszej publikacji.
Wszystkie znaki występujące w tekście są zastrzeżonymi znakami firmowymi bądź towarowymi ich
właścicieli.
Autor oraz Wydawnictwo HELION dołożyli wszelkich starań, by zawarte w tej książce informacje były
kompletne i rzetelne. Nie biorą jednak żadnej odpowiedzialności ani za ich wykorzystanie, ani za związane
z tym ewentualne naruszenie praw patentowych lub autorskich. Autor oraz Wydawnictwo HELION nie
ponoszą również żadnej odpowiedzialności za ewentualne szkody wynikłe z wykorzystania informacji
zawartych w książce.
Wydawnictwo HELION
ul. Kościuszki 1c, 44-100 GLIWICE
tel. 32 231 22 19, 32 230 98 63
e-mail:
helion@helion.pl
WWW:
http://helion.pl
(księgarnia internetowa, katalog książek)
Drogi Czytelniku!
Jeżeli chcesz ocenić tę książkę, zajrzyj pod adres
http://helion.pl/user/opinie/badada
Możesz tam wpisać swoje uwagi, spostrzeżenia, recenzję.
Printed in Poland.
Kup książkę
Poleć książkę
Oceń książkę
Księgarnia internetowa
Lubię to! » Nasza społeczność
Spis tre ci
Przedmowa ...............................................................................................................................9
Rozdzia 1. Wprowadzenie: czym jest nauka o danych? ...................................................... 19
Wielkie dane i szum wokó badania danych
Pokonywanie szumu
Dlaczego teraz?
Obecny horyzont (z domieszk historii)
Profil nauki o danych
Eksperyment my lowy — metadefinicja
Kim zatem jest badacz danych?
19
21
22
23
27
28
29
Rozdzia 2. Wnioskowanie statystyczne,
eksploracyjna analiza danych i proces badania danych .......................................................33
My lenie statystyczne w epoce wielkich danych
Eksploracyjna analiza danych
Proces badania danych
Eksperyment my lowy: jak zasymulowa chaos?
Studium przypadku: RealDirect
33
46
51
54
55
Rozdzia 3. Algorytmy ............................................................................................................ 61
Algorytmy uczenia maszynowego
Trzy algorytmy podstawowe
Zadanie: podstawowe algorytmy uczenia maszynowego
Podsumowuj c to wszystko
Eksperyment my lowy — automatyczny statystyk
62
63
88
92
93
Rozdzia 4. Filtry spamu, naiwny Bayes i obróbka danych ..................................................95
Eksperyment my lowy — nauczanie przez przyk ad
Naiwna metoda Bayesa
Zróbmy to z polotem — wyg adzanie metod Laplace’a
95
99
103
5
Kup książkę
Poleć książkę
Porównanie naiwnej metody Bayesa z k-NN
Przyk adowy kod w bashu
Skrobi c po Sieci — interfejsy API i inne narz dzia
104
105
106
Rozdzia 5. Regresja logistyczna .......................................................................................... 111
Eksperymenty my lowe
Klasyfikatory
Przypadek regresji logistycznej w M6D
Zadanie z Media6Degrees
112
113
115
124
Rozdzia 6. Znaczniki czasu i modelowanie finansowe ..................................................... 129
Kyle Teague i GetBlue
Znaczniki czasu
Cathy O’Neil
Eksperyment my lowy
Modelowanie finansowe
Zadanie: GetGlue i zdarzenia opatrzone znacznikami czasu
129
131
136
136
137
150
Rozdzia 7. Wydobywanie znacze z danych ..................................................................... 153
William Cukierski
Model Kaggle
Eksperyment my lowy: jakie s etyczne nast pstwa Robo-Gradera?
Wybór cech
David Huffaker: hybrydowe podej cie Google do bada spo ecznych
153
156
159
161
176
Rozdzia 8. Doradzarki budowanie na styku z u ytkownikiem
produktu danych na miar ....................................................................................................181
Doradzarka z prawdziwego zdarzenia
Eksperyment my lowy
b belki filtrowania
Zadanie: zbuduj w asn doradzark
182
192
192
Rozdzia 9. Wizualizacja danych i wykrywanie oszustw ................................................... 195
Historia wizualizacji danych
Czym jest nauka o danych? Nowym rozdaniem?
Przyk adowe projekty wizualizacji danych
Marka projekty wizualizacji danych
Nauka o danych i ryzyko
Wizualizacja danych w Square
Eksperyment my lowy Iana
Wizualizacja danych dla takich jak my
195
197
199
202
209
219
220
220
6
Spis tre ci
Kup książkę
Poleć książkę
Rozdzia 10. Sieci spo eczne i dziennikarstwo danych .......................................................223
Analiza sieci spo ecznych w Morningside Analytics
Analiza sieci spo ecznych
Terminologia z obszaru sieci spo ecznych
Eksperyment my lowy
Metody analityczne w Morningside
Szersze t o statystyczne analizy sieci spo ecznych
Dziennikarstwo danych
223
225
226
228
229
232
236
Rozdzia 11. Przyczynowo
.................................................................................................239
240
242
243
245
247
252
Korelacja nie implikuje przyczynowo ci
Starania witryny OK Cupid
Z oty standard — losowe próby kliniczne
Testy A/B
Z braku czego lepszego: badania obserwacyjne
Trzy zalecenia
Rozdzia 12. Epidemiologia ..................................................................................................253
Wykszta cenie i kariera zawodowa Madigana
Eksperyment my lowy
Wspó czesna statystyka akademicka
Literatura medyczna i badania obserwacyjne
Stratyfikacja nie rozwi zuje problemu czynników zaburzaj cych
Czy jest lepsze wyj cie?
Eksperyment badawczy (partnerstwo w wynikach obserwacji medycznych)
Finalny eksperyment my lowy
253
254
254
255
256
258
259
263
Rozdzia 13. Wnioski z konkursów danych: wycieki danych i ocenianie modelu ..............265
Profil Claudii jako badaczki danych
Zawody w wydobywaniu danych
Jak by dobrym modelarzem
Wyciek danych
Jak unika wycieków
Ocenianie modeli
Wybór algorytmu
Przyk ad ko cowy
Przemy lenia na po egnanie
265
267
268
268
273
273
278
278
279
Rozdzia 14. In ynieria danych — MapReduce, Pregel i Hadoop ....................................... 281
O Davidzie Crawshaw
Eksperyment my lowy
MapReduce
Spis tre ci
282
282
283
7
Kup książkę
Poleć książkę
Zgłoś jeśli naruszono regulamin