Tag Archive for analiza danych statystycznych

Obliczenia statystyczne z wykorzystaniem miar tendencji centralnej

Miary tendencji centralnej to obliczenia statystyczne, które dostarczają nam informacji na temat rozkładu naszych zmiennych. Do analiz statystycznych tego typu zaliczamy m.in. dominantę, medianę, średnią.

Dominanta to wartość zaliczana do grupy statystyk opisowych, która najczęściej występuje w zbiorze. Informacja tego typu jest przydatna podczas wstępnej analizy danych, ponieważ na jej podstawie możemy uzyskać informację na temat preferencji osób badanych.

Mediana to statystyka opisowa, która pozwala nam zidentyfikować wartość dzielącą nasz zbiór dokładnie na dwie równe części. Wartość mediany bardzo często wykorzystywana jest przy dychotomizacji zmiennych (podziel obserwacji na dwie grupy). Mediana zapewnia, że podział będzie równomierny tzn. w obu stworzonych grupach znajdzie się tyle samo obserwacji.

Średnia (arytmetyczna) to najpopularniejsza statystyka spośród miar tendencji centralnej. By ją obliczyć wystarczy dodać wszystkie wartości znajdujące się w naszym zbiorze a następnie uzyskaną sumę podzielić przez liczbę elementów (naszego zbioru). Średnia tak jak mediana jest wykorzystywana do dychotomizacji zmiennych. Warto jednak zaznaczyć, że opisywana miara jest narażona na wartości dewiacyjne (skrajne). Przy dychotomizacji (za pomocą średniej) oznacza to iż dzieląc nasz zbiór na dwie części nie możemy być pewni, że powstałe grupy będą równoliczne.

test t oraz Anova – Charakterystyka

Wyróżnia się również analizy statystyczne o nazwie testy t Studenta. Te analizy używane są przy porównywaniu średnich, dodatkowo mogą być używane tylko wtedy, gdy wystąpią pewne warunki. Z tego względu określa się je testami parametrycznymi. W analizie tego rodzaju wykorzystuje się zmienne zależne, które muszą znaleźć się na skali ilościowej oraz w rozkładzie normalnym. Można założyć również próby niezależne, ale wtedy porównywane średnie muszą należeć do równolicznych. Tego rodzaju analizy statystyczne mogą być wykonywane dla prób zależnych, niezależnych oraz dla jednej próby. Testy t, jak widać, są popularne i mają różne zastosowania. Próby niezależne dotyczą na przykład różnych grup niezależnych od siebie, czyli wzrost, wagę kobiet i mężczyzn lub długość sierści dwóch gatunków zwierząt. Testy t dla prób niezależnych w takich przypadkach przyjmują dwie zmienne – grupująca zmienna to płeć czy gatunek, zmienna zależna to waga, wzrost lub długość sierści. Porównywane grupy należy ujednolicić pod względem ilości, ponieważ w innym przypadku wyniki będą niewiarygodne. Testy t dla prób zależnych to również bardzo przydatne analizy statystyczne, w przypadku których obie zmienne zależą od siebie (może to być zależność związana z jakimś działaniem, jakiemu poddawane są obie zmienne w różnym czasie itd). W przypadku jeszcze jednej analizy, testu t dla jednej próby, wykorzystywana jest zmienna teoretyczna oraz średnia właściwa dla danej próby, w skali ilościowej oraz o rozkładzie normalnym.

Różnego rodzaju analizy statystyczne mają konkretne zastosowania, a więc Anova również takie posiada. Za pomocą tej analizy możemy porównać N grup niezależnych, co jest odpowiednie do sytuacji, gdy czynnik – inna nazwa zmiennej niezależnej – zawiera w sobie więcej grup niż dwie. Można więc sprawdzać poziom inteligencji osób z różnym wykształceniem, zaczynając od podstawowego po wyższy. Testy z użyciem analizy statystycznej Anova sprawdzą się w takim przypadku doskonale. Analizy statystyczne Anova należą, podobnie jak poprzednio opisane, do testów parametrycznych. Zanim pomyślimy o wykorzystaniu tego rodzaju w praktyce, musimy przekonać się o istnieniu odpowiednich zmiennych. Grupy zaliczane do zmiennej niezależnej muszą posiadać określoną liczebność, mianowicie zbliżoną. Zmienną zależną definiuje się ilościowo (iloraz inteligencji jak najbardziej można tak zdefiniować), a także gwarantuje normalny rozkład wyników. Analiza Anova określana jest też jednoczynnikową analizą wariancji. Podejmowane analizy statystyczne tego rodzaju mogą zagwarantować doskonałe wyniki, choć oczywiście nie do wszystkich zastosowań się nadają. W niektórych przypadkach stosować trzeba inne testy, na przykład test Z Kołmogorowa Smirnowa lub test Shapiro – wilka.

analiza korelacji

Odpowiednie analizy statystyczne są dostępne do różnych zastosowań i do stwierdzania różnych zależności. Jedną ze znanych i często używanych analiz jest korelacja. Do przeprowadzenia tej analizy potrzebne są zmienne, a badana będzie zależność między nimi – czy w ogóle istnieje, w jakim jest kierunku itd. Chodzi oczywiście o zależność liniową. W przypadku korelacji można określić zależność liniową o wartości w zakresie od -1 do +1. Za pomocą oznaczeń oraz liczb można określić, jaką wartość przyjmują analizy statystyczne i w jakim kierunku występuje istniejąca zależność. Analiza statystyczna nazywana korelacją używana jest w różnych odmianach, na przykład jako współczynnik korelacji Spearmana, współczynnik korelacji Tau Kendalla czy też współczynnik korelacji r Pearsona. Trzeba odpowiednio rozłożyć zmienne oraz użyć właściwej skali, dzięki czemu wyniki mogą być prawidłowe i wiele mówiące. Wybór odnośnie tego, jakie analizy statystyczne zostaną wykorzystane, można uzależnić od rodzaju zmiennych. Na przykład zmienne wyrażone dzięki skali ilościowej oraz posiadające normalny rozkład można analizować za pomocą współczynnika korelacji r Pearsona. W przypadku, gdy zmienne nie znajdują się w rozkładzie normalnym (choćby jedna z nich), należy użyć korelacji Spearmana. Ostatni z omówionych współczynników, współczynnik Tau Kendalla, przydatny jest w przypadku skali porządkowych oraz znajdujących się na nich zmiennych.