Tag Archive for analizy statystyczne

Testy t Studenta dla prób niezależnych

Test t Studenta jest to test parametryczny służący do porównywania średnich dwóch grup.  By móc go zastosować potrzebujemy dwóch zmiennych tzw. zmiennej grupującej, która może przyjmować jedynie dwie wartości (np. płeć) oraz zmiennej zależnej, która musi być wyrażona na skali ilościowej (np. wzrost). Stosowanie testu t studenta dla prób niezależnych wymaga spełnienia pewnych założeń takich jak:

    • normalność rozkładu zmiennej zależnej
    • zmienna zależna musi mieć charakter ilościowy
    • analizowane grupy powinny być równoliczne

Czym są testy parametryczne?

Zastosowanie testów parametrycznych ma spore znaczenie, jeśli chodzi o analizowanie różnych zdarzeń w grupie określanej populacją. Są to analizy statystyczne w nazwie których występuje słowo test, więc można zasugerować się chociażby nazwą. Wymagana jest do ich przeprowadzenia orientacja w zakresie dystrybuanty populacji, którą będziemy poddawać analizie. Dystrybuanta dotyczy rozkładu zmiennej, do której odnosi się cały test. Jak w przypadku wielu innych analiz, konieczne jest upewnienie się co do tego, jaki występuje rozkład danych – preferowany jest normalny rozkład. Ustalamy również liczebność grupy poddawanej badaniu i jednorodność wariancji, o ile wykonywane w tym przypadku analizy statystyczne dotyczą większej ilości grup. Ważne jest zdecydowanie się na testy parametryczne właśnie z uwagi na to, że posiadane wytyczne odpowiadają założeniom tego rodzaju analiz. Wytyczne są właśnie podstawą do skorzystania właśnie z grupy testów parametrycznych, a nie jakichkolwiek innych, więc w przypadku niedopasowania tychże można wybrać dowolne, ale lepiej pasujące testy. Dzięki wykonaniu analizy statystycznej wybranej właśnie z kręgu tekstów parametrycznych można uzyskać na przykład wariancję, średnią arytmetyczną oraz wskaźnik struktury. Wśród testów odpowiadających uzyskaniu tychże danych występują: Test Friedmana, Test Kruskala-Wallisa, Test Wilcoxona, Test U-Manna Whitneya itp.

test t oraz Anova – Charakterystyka

Wyróżnia się również analizy statystyczne o nazwie testy t Studenta. Te analizy używane są przy porównywaniu średnich, dodatkowo mogą być używane tylko wtedy, gdy wystąpią pewne warunki. Z tego względu określa się je testami parametrycznymi. W analizie tego rodzaju wykorzystuje się zmienne zależne, które muszą znaleźć się na skali ilościowej oraz w rozkładzie normalnym. Można założyć również próby niezależne, ale wtedy porównywane średnie muszą należeć do równolicznych. Tego rodzaju analizy statystyczne mogą być wykonywane dla prób zależnych, niezależnych oraz dla jednej próby. Testy t, jak widać, są popularne i mają różne zastosowania. Próby niezależne dotyczą na przykład różnych grup niezależnych od siebie, czyli wzrost, wagę kobiet i mężczyzn lub długość sierści dwóch gatunków zwierząt. Testy t dla prób niezależnych w takich przypadkach przyjmują dwie zmienne – grupująca zmienna to płeć czy gatunek, zmienna zależna to waga, wzrost lub długość sierści. Porównywane grupy należy ujednolicić pod względem ilości, ponieważ w innym przypadku wyniki będą niewiarygodne. Testy t dla prób zależnych to również bardzo przydatne analizy statystyczne, w przypadku których obie zmienne zależą od siebie (może to być zależność związana z jakimś działaniem, jakiemu poddawane są obie zmienne w różnym czasie itd). W przypadku jeszcze jednej analizy, testu t dla jednej próby, wykorzystywana jest zmienna teoretyczna oraz średnia właściwa dla danej próby, w skali ilościowej oraz o rozkładzie normalnym.

Różnego rodzaju analizy statystyczne mają konkretne zastosowania, a więc Anova również takie posiada. Za pomocą tej analizy możemy porównać N grup niezależnych, co jest odpowiednie do sytuacji, gdy czynnik – inna nazwa zmiennej niezależnej – zawiera w sobie więcej grup niż dwie. Można więc sprawdzać poziom inteligencji osób z różnym wykształceniem, zaczynając od podstawowego po wyższy. Testy z użyciem analizy statystycznej Anova sprawdzą się w takim przypadku doskonale. Analizy statystyczne Anova należą, podobnie jak poprzednio opisane, do testów parametrycznych. Zanim pomyślimy o wykorzystaniu tego rodzaju w praktyce, musimy przekonać się o istnieniu odpowiednich zmiennych. Grupy zaliczane do zmiennej niezależnej muszą posiadać określoną liczebność, mianowicie zbliżoną. Zmienną zależną definiuje się ilościowo (iloraz inteligencji jak najbardziej można tak zdefiniować), a także gwarantuje normalny rozkład wyników. Analiza Anova określana jest też jednoczynnikową analizą wariancji. Podejmowane analizy statystyczne tego rodzaju mogą zagwarantować doskonałe wyniki, choć oczywiście nie do wszystkich zastosowań się nadają. W niektórych przypadkach stosować trzeba inne testy, na przykład test Z Kołmogorowa Smirnowa lub test Shapiro – wilka.

analiza korelacji

Odpowiednie analizy statystyczne są dostępne do różnych zastosowań i do stwierdzania różnych zależności. Jedną ze znanych i często używanych analiz jest korelacja. Do przeprowadzenia tej analizy potrzebne są zmienne, a badana będzie zależność między nimi – czy w ogóle istnieje, w jakim jest kierunku itd. Chodzi oczywiście o zależność liniową. W przypadku korelacji można określić zależność liniową o wartości w zakresie od -1 do +1. Za pomocą oznaczeń oraz liczb można określić, jaką wartość przyjmują analizy statystyczne i w jakim kierunku występuje istniejąca zależność. Analiza statystyczna nazywana korelacją używana jest w różnych odmianach, na przykład jako współczynnik korelacji Spearmana, współczynnik korelacji Tau Kendalla czy też współczynnik korelacji r Pearsona. Trzeba odpowiednio rozłożyć zmienne oraz użyć właściwej skali, dzięki czemu wyniki mogą być prawidłowe i wiele mówiące. Wybór odnośnie tego, jakie analizy statystyczne zostaną wykorzystane, można uzależnić od rodzaju zmiennych. Na przykład zmienne wyrażone dzięki skali ilościowej oraz posiadające normalny rozkład można analizować za pomocą współczynnika korelacji r Pearsona. W przypadku, gdy zmienne nie znajdują się w rozkładzie normalnym (choćby jedna z nich), należy użyć korelacji Spearmana. Ostatni z omówionych współczynników, współczynnik Tau Kendalla, przydatny jest w przypadku skali porządkowych oraz znajdujących się na nich zmiennych.

analizy statystyczne cz.1

W grupie 2 aż 60% badanych przyznaje, że ich samoocena przed operacją była zła. 35% z tej samej grupy odpowiedziała, że przeciętna, natomiast zaledwie 5%, że dobra. W grupie 1 największy odsetek osób (50%) ocenił samoocenę przed zabiegiem operacyjnym przeciętnie. 35% respondentów oceniała jakość swojego życia źle, natomiast 15% dobrze. W grupie trzeciej analiza statystyczna wykazała, że dokładnie połowa badanych oceniła poziom samooceny przed operacją źle, 40% przeciętnie. Jedynie 10% respondentów odpowiedziała, że ich jakość życia przed zabiegiem była dobra.

Obliczenia statystyczne wykazały, że wyniki najbliższe normy fizjologicznej w teście na rozpiętość uzyskały osoby z grupy 3 ( M = 21,70 ; SD = 9,27). Nieco słabiej pod tym względem wypadli badani z grupy 2 ( M = 20,80 ; SD = 6,07), natomiast najsłabiej osoby z grupy 1 ( M = 14,40 ; SD = 4,19). Analiza statystyczna wykazała jednak, że zaobserwowane różnice okazały się nieistotne na zakładanym poziomie statystycznym. Obliczenia statystyczne pokazują iż czas jaki minął od operacji nie miał istotnego wpływu na wynik uzyskany w teście.

Rodzaje skal pomiarowych

Każdy badacz dobrze wie, że prawidłowe zaprojektowanie zmiennych jest czynnością niezwykle ważną. Od tego na jakich skalach wyrażone są nasze zmienne zależy m.in. dobór analiz statystycznych, które będziemy mogli przeprowadzić. Projektując np. pytania kwestionariusza bardzo często jako skalę odpowiedzi wykorzystuje się skalę Likerta, która pozwala traktować zmienne jako ilościowe. Warto tu zaznaczyć iż choć w rzeczywistości skala ta ma charakter raczej porządkowy (w końcu poszczególne elementy w zbiorze nie mogą przyjąć dowolnej wartości) to jednak przyjęło się, że zmienne tego typu traktujemy jako ilościowe. Niewątpliwą zaletą tego typu skali jest możliwość zastosowania wielu zaawansowanych analiz statystycznych – pamiętajmy, że zmienne ilościowe dają nam szeroki wachlarz możliwości przy wyborze odpowiedniego testu. Poniżej przedstawię właściwości poszczególnych rodzajów skal na jakich mogą zostać wyrażone zmienne.

Skala nominalna – pozwala nam jedynie odróżnić elementy znajdujące się w zbirze poprzez nadanie etykiet. Nie daje nam, natomiast informacji na temat tego, który element zbioru jest lepszy bądź jaka odległość dzieli jeden element od drugiego. Tworząc zmienne wyrażone na skali nominalnej ograniczamy znacznie możliwości wyboru analiz statystycznych – jednak w niektórych przypadkach skala nominalna jest jedyną możliwością np. podczas kodowania zmiennej płeć.

Skala porządkowa – jak sama nazwa wskazuje pozwala nam na uporządkowanie elementów tworzących zbiór danych. Skala tego typu pozwala nam ułożyć elementy według różnych kryteriów np. wykształcenie od najniższego do najwyższego czy miejsce na mecie od pierwszego do ostatniego. To czego jednak nie możemy się dowiedzieć z tego typu zmiennych to jakie odległości dzielą nas od poszczególnych wartości np. w przypadku miejsca zawodników (powiedzmy biegnących na 100 m.)  na mecie nie wiemy czy zawodnik zajmujący 2 miejsce miał identyczną stratę do zwycięzcy jak 3 zawodnik do 4. Tworząc zmienne na skali porządkowej mamy większe pole do manewru jeśli chodzi o możliwość wykorzystania poszczególnych rodzajów analiz statystycznych choć należy zaznaczyć, że największa swobodę w tym zakresie dają zmienne wyrażone na skali ilościowej.

Skala ilościowa – daje największe możliwości obliczeń statystycznych. Zmienne ilościowe to np. czas, wiek, waga. Zmienne tego typu mówią nam w jakiej odległości leżą od siebie elementy znajdujące się w naszym zbiorze, ponadto skala ilościowa posiada właściwości pozostałych skal a więc nominalnej i porządkowej. Analizy statystyczne, które możemy wykonać na tego typu zmiennych są niemal nieograniczone.

Statystyki opisowe cz.1

Statystyki opisowe to podstawowe narzędzia wykorzystywane w analizie statystycznej. Służą do opisu podstawowych właściwości naszych zmiennych, ponadto dostarczają informacje niezbędne do podjęcia decyzji o kolejnych etapach postępowania np. np. czy warto zastosować bardziej zaawansowane analizy statystyczne. Statystki opisowe możemy podzielić na dwie grupy, pierwszą z nich są miary tendencji centralnej, które służą do określenia przeciętnych wartości naszego zbioru. Do miar tendencji centranej zaliczamy analizy statystyczne takie jak:

Dominanta (moda) – jest to wartość, która w naszym zbiorze powtarza się najczęściej. Analizę statystyczną z wykorzystaniem wartości modalnej można zastosować wtedy gdy zmienna wyrażona jest na skalach; nominalnej, porządkowej, ilościowej.

Mediana – to wartość w naszym zbiorze, która dzieli jego elementy na dwie równe części. Mediana znajduje się dokładnie po środku naszych wyników co oznacza, że w naszym zbiorze dokładnie połowa elementów posiada wyższą/niższą wartość od wyniku median. Analizę statystyczną z wykorzystaniem mediany można zastosować wtedy gdy zmienna wyrażona jest na skalach; porządkowej, ilościowej.

Średnia arytmetyczna –  najczęściej wykorzystywana z miar tendencji centralnej. By wyliczyć średnią arytmetyczną musimy zsumować wszystkie wartości znajdujące się w naszym zbiorze, następnie podzielić je przez liczbę wartości znajdujących się w zbiorze. Analizę statystyczną z wykorzystaniem średniej arytmetycznej można przeprowadzić wtedy gdy zmienna wyrażona jest na skali ilościowej.

Zastosowanie testu U Manna Whitneya

Test U Manna Whitneya to analiza statystyczna wykorzystywana w przypadku gdy chcemy porównać wyniki dwóch grup niezależnych. Statystyka ta zaliczana jest do grupy testów nieparametrycznych opartych na rangach. Parametrycznym odpowiednikiem testu U Manna Whitneya jest test t studenta dla prób niezależnych, który wykorzystujemy wtedy gdy nasza zmienna zależna spełnia pewne założenia. W przypadku gdy zmienna zależna nie posiada rozkładu normalnego bądź też jest wyrażona na skali porządkowej stosujemy analizę statystyczną U Manna Whitneya. Istotną różnicą pomiędzy analizą statystyczną jaką jest test t dla prób niezależnych oraz analizą statystyczną (test U Manna Whitneya)  jest sposób porównywania obu grup. W przypadku testu t aparat obliczeniowy oparty jest na porównywaniu średnich uzyskanych z wyników obu grup niezależnych, natomiast test U Manna Whitneya porównuje rangi. Podsumowując analiza statystyczna jaką jest test U Manna Whitneya wykorzystujemy w przypadku gdy zmienna zależna wyrażona jest na skali porządkowej bądź też ilościowej lecz nie posiadająca rozkładu normalnego.

Zastosowanie jednoczynnikowej analizy wariancji (ANOVA)

Analiza statystyczna jaką jest Anova służy do porównywania N grup niezależnych. Stosujemy ją zazwyczaj, gdy nasza zmienna niezależna (w statystyce zwana czynnikiem) składa się z więcej niż dwóch grup np. jeżeli chcielibyśmy sprawdzić czy osoby z wykształceniem zawodowym, średnim oraz wyższym różnią się istotnie od siebie poziomem IQ to analiza statystyczna Anova jest do tego celu idealnym testem. Jednoczynnikowa analiza wariancji zaliczana jest do testów parametrycznych co sprawia, że przed analizą statystyczną dokonaną za pomocą tego testu powinniśmy sprawdzić czy nasze zmienne spełniają pewne założenia. Jeśli chodzi o zmienną niezależną (zwaną też czynnikiem) to najważniejsze założenie dotyczy liczby osób przynależących do poszczególnych grup tworzących tą zmienną. Wyjaśniając to na wcześniej przytoczonym przykładzie chodzi o to by liczba osób posiadająca wykształcenie zawodowe, średnie, oraz wyższe była do siebie zbliżona. Zmienna zależna (w naszym przykładzie IQ), natomiast powinna mieć charakter ilościowy a jej rozkład wyników powinien być zbliżony do normalnego. W naszym przykładzie zmienna jaką jest współczynnik IQ z natury ma charakter ilościowy a więc jedno z założeń możemy uznać za spełnione, natomiast co do rozkładu naszej zmiennej tu musimy zastosować jedną z analiz statystycznych służących do weryfikacji normalności rozkładu ( zazwyczaj jest to test Z Kołmogorowa Smirnowa bądź też test Shapiro – wilka). Podsumowując jednoczynnikową analizę wariancji stosujemy wtedy gdy chcemy porównać ze sobą wyniki uzyskane przez minimum trzy grupy badawcze.

Testy t Studenta – zastosowanie

Testy t Studenta to grupa analiz statystycznych, która swój aparat obliczeniowy opiera na porównywaniu średnich. Są to statystyki wchodzące w grupę testów parametrycznych co oznacza iż ich zastosowanie wymaga spełnienia pewnych założeń.

Założenia:

– Zmienne zależne powinny być wyrażone na skali ilościowej

– Zmienne zależne powinny charakteryzować się rozkładem normalnym

– W przypadku testu t dla prób niezależnych porównywane grupy powinny być równoliczne

W skład opisywanych analiz statystycznych wchodzą testy t dla prób niezależnych, testy t dla prób zależnych oraz test t dla jednej próby. Poniżej znajduje się krótka charakterystyka każdego z nich.

Test t dla prób niezależnych: wykorzystujemy go wtedy gdy chcemy porównać średnie dwóch grup niezależnych od siebie np. jeżeli chcemy sprawdzić czy kobiety i mężczyźni różnią się wzrostem wtedy test t dla prób niezależnych jest idealnym rozwiązaniem. W takim przypadku zmienna płeć w analizie statystycznej staje się naszą zmienną grupującą, natomiast wzrost (wyrażony np. w centymetrach) – zmienną zależną. Przed wykonaniem analizy statystycznej musimy jednak pamiętać by sprawdzić pewne cechy naszych zmiennych. Po pierwsze grupy, które chcemy porównać (a więc w naszym przykładzie kobiety i mężczyźni) powinny być zbliżone liczebnościowo co oznacza, że powinniśmy przebadać podobną ilość kobiet i mężczyzn. Co do zmiennej zależnej, którą w naszym przypadku jest wzrost, powinna ona charakteryzować się rozkładem normalnym oraz być wyrażona na skali ilościowej. Jeżeli powyższe wytyczne sa spełnione możemy przejść do wykonania obliczeń statystycznych.

Test t dla prób zależnych: jak sama nazwa wskazuje służy on do porównywania zmiennych, które są zależne od siebie np. jeżeli chcemy sprawdzić czy dieta odchudzająca jest skuteczna możemy tego dokonać za pomocą test t dla prób zależnych. By to sprawdzić powinniśmy posiadać dwie zmienne, pomiar przed zastosowaniem diety oraz pomiar po zakończeniu kuracji odchudzającej. Założenia jakie muszą spełnić nasze zmienne byśmy mogli przeprowadzić taką analizę statystyczną to normalność rozkładu obu pomiarów oraz  ich ilościowy charakter. Jeżeli wymienione założenia są spełnione nic nie stoi na przeszkodzie do przeprowadzenia naszych obliczeń statystycznych.

Test t dla jednej próby: to analiza statystyczna służąca do porównywania średniej naszego rozkładu z rozkładem zmiennej teoretycznej np. jeżeli chcemy sprawdzić czy  klasa gimnazjalistów z miejscowości x rozwiązała test inteligencji lepiej niż wynosi średnia krajowa w tym przedziale wiekowym test t dla jednej próby będzie do tego dobrym rozwiązaniem. Oczywiście by móc takie obliczenia statystyczne przeprowadzić musimy znać średni wynik  inteligencji dla populacji gimnazjalistów. Jeżeli chodzi o założenia to nasza próba powinna być wyrażona na skali ilościowej oraz powinna mieć rozkład normalny.