Statystyka to nauka zajmująca się metodami badania przedmiotów lub zjawisk masowych w przestrzeni lub w czasie i ich ilością lub jakością analiza z punktu widzenia nauki do której należą
Statystyka opisowa zajmuje się metodami gromadzenia danych statystycznych, prezentacji danych statycznych i sumarycznego opisu danych statystycznych
Statystyka matematyczna zajmuje się metodami poznania własności rozkładu jednej lub kilku cech w zbiorowości statystycznej na podstawie zbadania części tej zbiorowości, wybranej w sposób losowy
Populacja generalna – zwana inaczej zbiorowością generalną, jest to zbiór jednostek powiązanych ze sobą logicznie ale nieidentycznie ze względu na badaną cechę
· Populacja celu
· Populacja badania
Cechy statystyczne-właściwości jednostek statystycznych
· Cechy stałe powodują że zbiorowość statystyczna stanowi logiczną całość
· Cechy zmienne- podlegają badaniu statystycznym
· Cechy mierzalne- dają się wyrazić za pomoc liczb i podawane są w jednostkach
o Cechy skokowe-przyjmują skończone wartości liczbowe, zmieniające się skokowo
o Cechy ciągłe-mogą przyjmować dowolne wartości liczbowe z pewnego przedziału liczbowego
· Cechy niemierzalne-nie można ich zmierzyć w żadnych jednostkach a jedynie można stwierdzić czy konkretna odmiana u danej jednostki statystycznej występuje czy nie (cechy jakościowe)
Badanie statystyczne to proces pozyskiwania danych na temat rozkładu pewnej cechy w populacji
· Charakter częściowy odbywa się na pewnych wybranych (zazwyczaj losowo) elementów populacji zwanych próbą, która powinna być reprezentatywna dla populacji
· Charakter pełny odbywa się gdy badania obejmują całą populację
Badania pełne:
· Spis
o Narodowy Spis Powszechny
o Państwowy Spis Rolny
· Rejestry (dane administracyjne), które mogą dotyczyć m.in. następujących dziedzin życia:
o Urodzenia, zgony, małżeństwa, rozwody
o Ochrona zdrowia i wymiar sprawiedliwości, szkolnictwo
o Dokumenty importowane i eksportowane
o Zeznania podatkowe osób fizycznych i prawnych
Rejestry
· Podmiotowe-rejestrowane są podmioty
· Przedmiotowe
· Faktograficzne
Zalety badania częściowego:
· Mniejszy koszt
· Terminowość i dokładność
· Wykwalifikowany personel i specjalistyczny sprzęt
· Zredukowane obciążenie respondenta
Kiedy nie stosować badania częściowego
· Badamy bardzo małą populację
· Potrzebne są szczególne informacje o cechach populacji
· Potrzebne jest dostarczenia informacji bazowych do efektywnego zaplanowania badania reprezentacyjnego
Etapy badania statystycznego:
ETAP I – Przygotowanie do badania
· Przygotowanie koncepcji badawczej
· Przygotowanie narzędzia badawczego
ETAP II – Realizacja badania
· Szkolenie badania
· Realizacja badania w terenie
· Bieżąca kontrola realizacji badania
ETAP III – Ocen i opracowanie zebranego materiału
· Wstępna selekcja materiału
· Przygotowanie zbioru danych
· Opracowanie materiałów
Jakość danych statystycznych:
Odpowiedniość, Aktualność, Trafność, Dostępność, Porównywalność, Spójność, Kompletność.
Źródła błędów:
· Używanie tego samego zbioru danych do formułowania i testowania hipotezy
· Pobieranie próby z niewłaściwej populacji lub brak jej określenia przed badaniem
· Próby, które są nielosowe lub niereprezentatywne
· Pomiar złych zmiennych lub mierzenie nie tego, co chcielibyśmy mierzyć
· Użycie niewłaściwych metod statystycznych
· Brak weryfikacji uzyskanych modeli
· Pozwolenie na to aby statystyczne procedury podejmowały decyzje za badacza.
Rodzaje błędów
· Błędy losowe związane z naturalną zmiennością wyników obserwacji opartej na próbie. Błędy losowe są nie do uniknięcia w badaniach częściowych.
o Błąd stricte losowy
o Losowy błąd statystyczny
· Błędy nielosowe mogą występować zarówno w badaniach częściowych jak i w pełnych
o Błędy kompletności
o Błędy treści
Proste skale pomiarowe
Pomiar polega na przyporządkowaniu określonych symboli cechom mierzonych obiektów
Skalowaniem nazywamy czynność odwzorowania mierzonej cechy za pomocą wybranej skali
W zależności od rodzaju symboli i sposobu ich przyporządkowania, wyróżnia się poziomy pomiaru:
· Nominalna
· Porządkowa (jedno i dwubiegunowa)
· Przedziałowa
· Stosunkowa
Miary Tendencji Centralnej
Szereg Statystyczny to uporządkowany lub też uporządkowany i pogrupowany względem wartości cechy materiał statystyczny
Szeregi szczegółowe tworzą uporządkowane w wartości dodanej cechy statystycznej
Szereg rozdzielczy
· Klasowy
· Z przedziałami klasowymi
Wskaźnik struktury (częstość, frakcja, udział)
Wi=ni/N *100
Informuje jaki jest udział jednostek statystycznych posiadających i-ty wariant cechy w całej badanej zbiorowości
Wskaźnik natężenia Ti stosunek dwóch różnych wielkości pozostających w pewnym związku logicznym np. gęstość zaludnienia, dochód narodowy na osobę
Miary opisujące strukturę zbiorowości statystycznej:
· Miary tendencji centralnej
· Miary zróżnicowania
· Miary kształtu (asymetrii, spłaszczenie)
· Miary koncentracji
Miary średnie to charakterystyki liczbowe służące do wyznaczania przeciętnego poziomu cechy mierzalnej. Są one syntetycznymi charakterystykami empirycznego rozkładu cechy w zbiorowości statystycznej
· Miary klasyczne- są funkcjami wszystkich wartości
· Miary pozycyjne są wyznaczone jako funkcje niektórych wartości cechy, charakterystycznych dla typowo położonych jednostek obserwowanej zbiorowości statystycznej
Średnia arytmetyczna to taka wartość cechy, którą miałyby wszystkie jednostki zbiorowości, gdyby podział łącznej wartości cechy był równomierny
Średnia arytmetyczna ważona wyznaczana jest dla szeregów rozdzielczych
Jeżeli szereg w którym przedstawione są dane jest szeregiem z przedziałami klasowymi to we wzorze na średnią ważoną zamiast xi wstawiamy środek przedziału klasowego
Mediana to wartość cechy, która ma jednostka statystyczna zajmująca środkową pozycję w uporządkowanym szeregu statystycznym. W szeregu szczegółowym i w szeregu rozdzielczym o klasach jednostkowych medianę wyznaczają podając wcześniej numer mediany
Nm=(N+1)/2
W szeregu rozdzielczym z przedziałami klasowymi możemy wyznaczyć jedynie przedział mediany zaś jej wartość może być wyznaczony za pomocą wzoru Interpolacyjnego.
Me=xdm+hm/nm*(Nme-⅀ni)
Xdm-dolna granica przedziały median
Hm-rozpiętość przedziału
Nm- pozycja mediany
⅀ni- łączna liczba obserwacji w klasach poprzedzających klasę zawierającą medianę, czyli liczebność skumulowana przedziałów klasowych poprzedzających przedział mediany
Dominanta (wartość modalna, moda) to taka wartość cechy, która występuje najczęściej w badanej zbiorowości
W przypadku szeregu rozdzielczego o przedziałach klasowych do wyznaczania dominanty stosuje się wzór interpolacyjny:
M=xdm+hdnd-nd-1nd-nd-1(nd-nd-1)
Ndm-dolna granica przedziału
Nd-liczebność przedziału
Hd-rozpiętość przedziału wartości modalnej
Tendencja centralna (położenie) zbiorowości statystycznej – miary położenia
Zróżnicowanie-dotyczy cechy mierzalnej (depresja)
· Rozstęp
· Odchylenie standardowe
· Wariacja
· Współczynnik zmienności
Rozstęp to różnica między największą a najmniejszą wartością cechy w zbiorze danych. Miara ta nie daje precyzyjnej informacji o zróżnicowaniu jednostek
Odchylenie standardowe to pierwiastek z sumy kwadratów odchyleń od średniej arytmetycznej podzielonej przez liczbę obserwacji
Wzór na szereg szczegółowy
Sx=i=1x(xi-xs)2N
Sx=i=1x(xi-xs)2*niN
Ni-liczebność w danej klasie
Xi-obserwacje szeregu
Wariacja- kwadrat odchylenia standardowego. Jest to średnia arytmetyczna kwadratów odchyleń od średniej
Wariacja oraz odchylenie standardowe mierzą przeciętny rozrzut obserwacji wokół wartości średniej arytmetycznej – mówią nam o ile duża wartość cechy przewyższają średnią oraz ile małe wartości cechy mogą być przeciętnie mniejsze od średniej
Wariacja posiada dobre własności matematyczne jednak jej wartości są trudniejsze do interpretacji gdyż wyrażone są w jednostkach podniesionych do kwadratu
Porównując różne zbiorowości pod względem stopnia zróżnicowania tej samej cechy lub tez porównując zróżnicowanie różnych cech w tej samej zbiorowości musimy posłużyć się względnymi miarami zróżnicowania tzw. Współczynnika zmienności
Współczynnik zmienności to wartość odchylenia standardowego wyrażona w %
CV=sxxs
Współczynnik zmienności jest wielkością niemianowaną.
Jest to miara bardzo przydatna do porównań gdyż odchylenie standardowe powinno być zawsze interpretowane w odniesieniu do poziomu cechy wyznaczonego przez średnią arytmetyczną.
Jeżeli nie możemy liczyć średniej do oceny stopnia zróżnicowania zbiorowości wykorzystujemy miary oparte na kwartylach tzw. Odchylenie ćwiartkowe
Qx=Q3-Q12
Miary asymetrii (Kształtu)
Kształt jest cechą zbiorowości statystycznych, to sposób w jaki poszczególne obserwacje rozkładają się wokół średniej
· Zbiorowości statystyczne mogą być symetryczne lub asymetryczne
· Jeżeli średnie arytmetyczna jest równa dominancie to zbiorowość możemy uznać za symetryczną
· Jeżeli średnia arytmetyczna jest wyższa od dominanty to zbiorowość jest dodatnio asymetryczna
· Jeśli średnia arytmetyczna jest mniejsza od dominanty to mamy do czynienia z ujemna asymetrią
Asymetria dodatnia ma miejsce gdy w zbiorowości przeważają wartości cechy poniżej średniej – średnia jest zawyżona przez zbyt ekstremalnie duże wartości cechy
Asymetria ujemna powstaje gdy w zbiorowości przeważają wartości cechy powyżej średniej – wartość średniej jest zaniżona przez ekstremalnie małe wartości cech.
Aby ocenić kierunek i siłę asymetrii możemy zastosować wskaźnik skośności
Wx=x-DSx
Jeśli nie możemy liczyć średniej arytmetycznej to do oceny asymetrii musimy posłużyć się współczynnikiem opartym na kwartylach
Pozycyjny wskaźnik asymetrii:
As=Q3-2Me+Q1Q3-Q1
Rodzaje współzależności między zmiennymi:
Zależność funkcyjna-ma miejsce wtedy gdy określonym wartością jednej zmiennej przyporządkowane są ściśle określone wartości drugiej zmiennej. Zmiana jednej wartości powoduje więc dokładnie określoną zmianę wartości drugiej zmiennej
Zależność scholastyczna-wraz ze zmianą jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej. Szczególnym przypadkiem zależności
Zależność przyczynowa- rodzaj zależności w której jesteśmy w stanie wskazać, która ze zmiennych stanowi przyczynę zmian, a która ilustruje skutek.
Zależność pozorna – wydaje się istnieć zależność ale jest ona wywołana istnieniami wspólnej przyczyny.
Zależność korelacyjna- ma miejsce wtedy gdy określonym wartością jednej zmiennej przyporządkowane są pewne średnie wartości drugiej zmiennej. Dla konkretnej wartości jednej zmiennej X (zmienna niezależna, objaśniająca) odpowiada średnia arytmetyczna z kilku wartości drugiej zmiennej Y1, Y2 (Zmienna zależna, objaśniana)
Formy przedstawienia danych dwuwymiarowych:
· Szereg korelacyjny
·...
Jaranti_Bollywood