Archive for Rodzaje testów statystycznych

test Kołmogorowa Smirnowa

Test Kołomogorowa – Smirnowa zaliczamy do grupy testów nieparametrycznych. Istnieją dwie wersje tego testu. Test Kołomogorowa- Smirnowa  dla jednej próby i dla dwóch prób.

Testu Kołomogorowa dla jednej próby to analiza statystyczna, której użyjemy by zweryfikować, czy analizowana zmienna ma rozkład normalny. Jest to jeden z ważniejszych kroków wnioskowania statystycznego np. w przypadku zastosowania testu t- studenta. Załóżmy, iż testujemy hipotezę  zerową mówiącą, iż w warunkach wysokiego hałasu liczba poprawnie rozwiązanych zadań arytmetycznych w danym teście nie różni się od przeciętnej wartości w populacji gimnazjalistów (M=4). Mamy więc jedną próbę badawczą, gdzie wprowadzamy manipulację – wysoki hałas i weryfikujemy różnicę. Chcemy sprawdzić, czy średnia z analizowanej próbie będzie równa wartości populacji (M=4). Aby wykonać test t- studenta muszą być spełnione dwa warunki: zmienna zależna (liczba wykonanych zadań) musi być mierzona na skali ilościowej i musi mieć rozkład normalny. By zweryfikować drugie założenie wykonamy właśnie test Kołomogorowa  – Smirnowa. Test ten testuje hipotezę zerową, która mówi, iż rozkład zmiennej w próbie jest rozkładem normalnym. Jeżeli test Kołomogorowa jest istotny statystycznie (p< 0,05), hipoteza zerowa zostaje odrzucona i tym samym przyjmujemy, że rozkład w próbie nie jest rozkładem normalnym. Założenie nie zostało spełnione. Jeżeli natomiast test Kołomogorowa jest nieistotny statystycznie, możemy kontynuować analizę naszej hipotezy właściwej za pomocą testu t- studenta.

Test Kołomogorowa- Smirnowa stanowi również nieparametryczny odpowiednik samego testu t.  W tym przypadku mówimy o teście Kołomogorowa dla dwóch prób. Ponieważ test ten należy do grupy testów nieparametrycznych zastosujemy go, gdy zmienną zależną będziemy mierzyć na skali porządkowej lub wtedy, gdy zmienna zależna będzie miała charakter ilościowy, ale nie zostaną spełnione założenia przewidziane dla testów parametrycznych, w tym założenie mówiące o rozkładzie normalnym.

Wariancja

Aby przekonać się jak istotna w analizach statystycznych jest wariancja, wystarczy wziąć do ręki kilka wiodących czasopism poruszających np. tematykę badań eksperymentalnych w naukach społecznych. Kartkując zamieszczone tam artykuły bez trudu znajdziemy zdania typu: „Celem weryfikacji niniejszej hipotezy przeprowadzono jednoczynnikową  analizę wariancji…”. Takie stwierdzenia dla większości czytelników brzmią dość tajemniczo. Na czym polega owa jednoczynnikowa analiza wariancji?  By odpowiedzieć na powyższe pytanie najlepiej zacząć od początku, czyli od wyjaśnienia czym jest wariancja i jak ją obliczyć.

Wariancja to miara dyspersji, czyli inaczej zróżnicowania, rozproszenia danych. Dzięki wariancji jesteśmy w stanie określić, jakie jest rozproszenie wyników wokół średniej. Załóżmy, że chcemy obliczyć wariancję dla następującego zbioru wyników: 2,4,6. W pierwszej kolejności musimy wyliczyć średnią arytmetyczną dla owego zbioru (M=4). Następnie odejmujemy średnią od poszczególnych wyników (X-M). Uzyskaną różnicę podnosimy do kwadratu ( [X-M] 2).  Teraz dodajemy do siebie kwadraty różnic. Otrzymaną sumę dzielimy przez liczbę wyników pomniejszoną o jeden. Wariancja w analizowanym przykładzie wynosi 4. Aby łatwiej nam było zinterpretować uzyskany wynik należy obliczyć odchylenie standardowe, czyli  pierwiastek kwadratowy z wariancji. Interpretacja odchylenia standardowego jest o tyle prostsza, iż jest ono wyrażone w jednostkach pomiaru, a nie w kwadratowych jednostkach pomiaru tak jak wariancja. Odchylenie standardowe dla analizowanego zbioru wyników wynosi 2. Oznacza, to iż przeciętna odległość wyników od średniej to 2 jednostki.

Wariancja to jedna z   najpopularniejszych miar testów parametrycznych.  Przykładem może być wspomniana na wstępie jednoczynnikowa analiza wariancji (ANOVA) w schemacie międzygrupowym. Po ten rodzaj testu parametrycznego sięgniemy, kiedy będziemy chcieli zweryfikować hipotezę mówiącą o wpływie jednej zmiennej niezależnej (mającej dwie lub więcej wartości) na zmienną zależną. Wyobraźmy sobie, iż chcemy sprawdzić, czy kolor kubka (czerwony, niebieski, żółty) ma wpływ na ocenę smaku (skala ilościowa) podawanego napoju. Głównym celem analizy wariancji jest ustalenie jaki jest stosunek zmienności wyników, ich wariancji spowodowany manipulacją eksperymentalną (kolorem kubka) do zróżnicowania  (wariancji) oceny smaku, które spowodowane jest wszystkimi innymi czynnikami np. upodobaniami smakowymi osób badanych.  Aby potwierdzić naszą hipotezę (kolor kubka wpływa na ocenę smaku testowanego napoju) musimy po pierwsze udowodnić, że wyniki wewnątrz   każdej grupy badanej („grupa kubka czerwonego”, „grupa kubka niebieskiego”, „grupa kubka żółtego”) są jak najbardziej do siebie podobne, czyli wariancja wewnątrzgrupowa jest jak najmniejsza. Po drugie powinniśmy też  wykazać, iż różnice pomiędzy średnimi obliczonymi z wyników w poszczególnych grupach a ogólną średnią oceną smaku (wariancja międzygrupowa) są duże. Jeśli udałoby się nam  spełnić każdy z powyższych warunków, to oznaczałoby, że nasza manipulacja (kolor kubka) sprawiła, że grupy różnią się między sobą w ocenie smaku napoju.

Podsumowując , jednoczynnikowa analiza wariancji  to zestawienie wielkości wariancji międzygrupowej z wariancją wewnątrzgrupową. Wariancja natomiast to miara dyspersji (należąca do grupy statystyk opisowych) określająca rozproszenie wyników wokół średniej.

PODOBNE ARTYKUŁY

Zastosowanie jednoczynnikowej analizy wariancji (ANOVA)

 

Regresja

Właśnie skończyłeś liceum i zastanawiasz się, czy warto iść na studia? Chciałbyś wiedzieć, jakie będą Twoje zarobki, gdy na naukę poświęcisz 19 lat, a ile będziesz zarabiać po 24 latach edukacji? Nic prostszego. Wystarczy, że wykonasz analizę regresji, w której zmienną zależną będą zarobki, natomiast zmienną niezależną tzw. predyktorem liczba lat nauki. I nie martw się, skąd weźmiesz bazę danych z zarobkami osób mających za sobą 25- letni etap edukacji. Nie będzie Ci potrzebna.

Termin „analiza regresji” zarezerwowany jest dla dość szerokiej kategorii analiz statystycznych umożliwiających między innymi weryfikację zależności nieliniowych oraz wpływu zmiennych jakościowych. Najpopularniejsze są jednak modele, w których badacze zakładają liniowy związek między predyktorem tj. zmienną niezależną a zmienną zależną, a zmienne mierzone są na skalach ilościowych. Taka forma analizy regresji nazywana jest fachowo regresją liniową i stanowi swoistego rodzaju rozszerzenie korelacji- miary liniowego związku między zmiennymi. Co zyskujemy rezygnując z korelacji na rzecz analizy regresji? Po pierwsze na podstawie  regresji liniowej możemy przewidzieć, o ile zmienni się wartość zmiennej zależnej (np. zarobków), wtedy gdy wartość zmiennej niezależnej zmieni się o jedną jednostkę (np. dodatkowy rok nauki). Ponadto ogromnym atutem regresji liniowej na tle zwykłej korelacji jest możliwość prognozowania wartości zmiennej zależnej na podstawie większej ilości predykatorów niż jeden. Jak cenny jest to atut, można zorientować się już na podstawie przytoczonego powyżej przykładu odwołującego się do zarobków i liczby lat nauki. Doskonale wiadomo przecież, że oprócz lat edukacji na  wysokość zarobków wpływ mają również inne zmienne np. staż pracy, czy inteligencja. Analiza regresji  umożliwia nam uwzględnienie wszystkich tych predyktorów, co przekłada się na bardziej dokładną prognozę zmiennej zależnej. Decydując się na włączenie więcej niż jednej zmiennej do naszego modelu sięgniemy po analizę regresji wielozmiennową, w przypadku prostego modelu (jeden predykator- jedna zmienna zależna) wykonamy regresję jednozmiennową.

Na koniec warto przytoczyć kilka założeń teoretycznych, które muszą zostać spełnione za nim przystąpimy do wykonania analizy regresji. Po pierwsze zarówno zmienna zależna, jak i wszystkie analizowane predyktory muszą mieć rozkłada normalny. Po drugie muszą być mierzone na skali ilościowej. Warto również zadbać o to by na każdy analizowany predyktor przypadało co najmniej 15 osób badanych. W przypadku zaś regresji wielozmiennowej zmienne niezależne nie mogą być ze sobą skorelowane. Kiedy powyższe założenia są spełnione, możemy rozpoczynać analizę regresji, dzięki której dowiemy ile jeszcze lat musimy poświęcić na naukę by uzyskać satysfakcjonujące nas zarobki.

Korelacja

Korelacja to miara współwystępowania dwóch zmiennych. Mimo, iż stwierdzenie „miara związku między zmiennymi” brzmi bardzo naukowo i poważnie, tak naprawdę z korelacją w naszym codziennym życiu mamy do czynienia częściej niż nam się wydaje. Któż z nas bowiem, nie słyszał narzekań typu: „kiedy wychodzi się z domu bez parasola, to zaraz zaczyna padać deszcz”? Takie współwystępowanie dwóch zmiennych: brak parasola- opad deszczu to właśnie jest korelacja. Innym książkowym przykładem obrazującym współczynnik korelacji jest stwierdzenie: „im ktoś jest wyższy, tym więcej waży”.  Oczywiście, już na pierwszy rzut oka, można zauważyć, iż w obu przywołanych przykładach mamy do czynienia z odmienną skalą pomiarową, na której są mierzone zmienne.  W pierwszym przypadku (brak parasola- opad deszczu) odwołujemy się do zmiennych nominalnych, w przypadku wagi i wzrostu zmienne są mierzone na skali ilościowej. Dobór współczynnika korelacji zależy właśnie od tego na jakiej skali pomiarowej mierzone są analizowane zmienne.

Najczęściej wykorzystywaną miarą określająca współwystępowanie dwóch zmiennych jest  współczynnik korelacji r- Pearsona. Za pomocą owego współczynnika jesteśmy w stanie określić korelację pomiędzy zmiennymi mierzonymi na skali ilościowej.  To właśnie za pomocą współczynnika r- Pearsona możemy zweryfikować stwierdzenie: „im ktoś jest wyższy, tym więcej waży”. Korelację r- Pearsona interpretujemy za pomocą dwóch wymiarów: siły i kierunku związku. Siła związku określa nam stopień istniejącej współzmienności. Współczynnik korelacji może przyjmować wartości od -1 do 1. Jeśli wartość współczynnika zbliża się do 1 lub -1, to mamy do czynienia z silną zależnością. Natomiast korelacja poniżej 0,3 uznawana jest za bardzo słabą lub w ogóle nie istniejącą. Kierunek korelacji informuje nas zaś o tym, w jaki sposób wartości jednej zmiennej są uporządkowane względem wartości drugiej zmiennej.  Możemy mieć do czynienia z korelacją dodatnią- wraz ze wzrostem wartości jednej zmiennej wzrastają wartości drugiej zmiennej, z korelacją ujemną – wraz ze wzrostem wartości jednej zmiennej maleją wartości drugiej zmiennej lub z korelacją równą 0 – brak związku liniowego między analizowanymi zmiennymi.

Oprócz współczynnika r- Pearsona istnieją jeszcze inne miary związku między zmiennymi dostosowane do skal pomiarowych, na których mierzone są analizowane zmienne. W przypadku skal porządkowych zastosujemy współczynnik korelacji tau – Kendalla oraz rho- Spearmana. Interpretacja tych dwóch współczynników jest identyczna jak w przypadku korelacji r- Pearsona. Wielkość współczynnika, który może przyjmować wartość  od -1 do 1, informuje nas o sile związku, a kierunek mówi w jaki sposób wartości jednej zmiennej są uporządkowane względem drugiej.

Nieco inaczej sytuacja wygląda w przypadku zmiennych nominalnych. Określając współwystępowanie zmiennych nominalnych możemy zastosować albo statystykę Phi (zmienne dwukategorialne) albo statystykę V Cramera (zmienne o większej liczbie kategorii). O ile wartość współczynnika Phi, podobnie jak pozostałych współczynników korelacji może zawierać się w przedziale od -1 do 1, to już w przypadku statystyki V Cramera współczynnik przybiera wartości od 0 do 1. W tym przypadku analizujemy bezwzględną wartość związku, nie mamy tutaj do czynienia ze związkiem ujemnym.

Współczynniki korelacji to bardzo proste do obliczenia i interpretacji miary związku, dlatego też cieszą się ogromną popularnością. Należy jednak podchodzić z dużą ostrożnością do ich stosowania i nie popadać w skrajność korelowania wszystkiego ze wszystkim,  można bowiem bardzo łatwo popaść w pułapkę korelacji pozornej.

PODOBNE ARTYKUŁY

Interpretacja wyników korelacji

Korelacja Spearmana

Korelacja Pearsona

Korelacja Tau Kendalla

Test t Studenta

Jeśli przeprowadziłeś prosty schemat badawczy w którym chciałeś sprawdzić np. czy liczba zapamiętanych słów obcojęzycznych przy muzyce klasycznej różni się od liczby zapamiętanych słów obcojęzycznych w warunkach kontrolnych, dobór testu t- studenta będzie najbardziej trafną analizą statystyczną zebranych danych.

Testów t- studenta będziemy używać do przeprowadzenia obliczeń statystycznych za każdym razem, kiedy zechcemy zweryfikować różnicę. Należy jednak pamiętać, iż testy t- studenta możemy zastosować tylko do schematów badawczych, w których porównujemy dwie grupy badawcze (dwa pomiary).  Ponadto nasza zmienna zależna, w powyższym przykładzie jest to liczba zapamiętanych słów obcojęzycznych, musi być mierzona na skali ilościowej. Tylko wtedy będziemy mieli możliwość obliczenia średniego wyniku dla każdej próby i zweryfikowania, czy porównywane grupy, pomiary różnią się istotnie statystycznie. Statystyki opisowe – średnie grupowe takiego jednoznacznego rozstrzygnięcia nie dają.

Rodzina testów opartych na statystyce t- studenta jest dość liczna. Po pierwsze mamy test t- studenta dla danych niezależnych. Po ten rodzaj testu t- studenta sięgniemy, gdy będziemy realizować badanie w prostym schemacie eksperymentalnym, w planie dla grup niezależnych. Odwołując się do przytoczonego na wstępie problemu badawczego, schemat eksperymentalny w tym przypadku wyglądałby następująco: połowa osób badanych uczyłaby się słów obcojęzycznych przy muzyce klasycznej, natomiast druga połowa w warunkach kontrolnych. Powyższy problem badawczy można jednak zweryfikować za pomocą odmiennego schematu eksperymentalnego. Najpierw wszyscy uczestnicy eksperymentu będą się uczyć słów obcojęzycznych w warunkach kontrolnych, a następnie te same osoby badane będą musiały zapamiętać słowa obcojęzyczne o podobnym poziomie trudności słuchając muzyki klasycznej. W tym przypadku do analizy wyników użyjemy testu t- studenta dla danych zależnych. Być może jednak istnieją jakieś dane na temat przeciętnej liczby zapamiętywanych słów obcojęzycznych wśród interesującej nas populacji. Gdyby tak było, moglibyśmy przeprowadzić nasz eksperyment tylko w warunkach z muzyką klasyczną, a następnie zestawić otrzymane wyniki z przeciętną średnią znaną z wcześniejszych opracowań. Do analizy wybralibyśmy wtedy test t- studenta dla jednej próby.

Podsumowując, testy t- studenta znajdują idealne zastosowanie w przypadku najprostszych schematów eksperymentalnych, w których mamy do czynienia z dwuwartościową zmienną niezależną (np. muzyka/ brak muzyki) i zmienną zależną mierzoną na skali ilościowej (np. liczba zapamiętanych słów obcojęzycznych).

PODOBNE ARTYKUŁY

Kurs spss – test t Studenta dla prób niezależnych

Kurs spss – test t Studenta dla prób zależnych

Kurs spss – Test t Studenta dla jednej próby

 

 

Kurs spss – test t Studenta dla prób niezależnych


Kiedy wykorzystujemy test t Studenta dla prób niezależnych ?

test t Studenta dla prób niezależnych stosujemy gdy chcemy porównać ze sobą średnie dwóch grup badawczych. Test Studenta zaliczamy do grupy testów parametrycznych i z tego właśnie powodu zanim z niego skorzystamy powinniśmy sprawdzić założenia takie jak:

– normalność rozkładu zmiennej zależnej

– podobna liczba osób w grupach badawczych

– ilościowy charakter zmiennej zależnej

Gdy testowane zmienne nie spełniają powyższych założeń można do obliczeń statystycznych wykorzystać test nieparametryczny U Manna Whitneya

Kurs spss – korelacja Spearmana

Kiedy wykorzystujemy Współczynnik korelacji rang Spearmana ?

Współczynnik korelacji rang Spearmana pozwala sprawdzić czy pomiędzy dwiema zmiennymi istnieje związek (współzależność). Korelacja Spearmana należy do grupy testów nieparametrycznych, jej parametrycznym odpowiednikiem jest korelacja Pearsona. stosujemy ją najczęściej wtedy gdy nasze zmienne nie spełniają założeń testów parametrycznych takich jak normalność rozkładu oraz ilościowy charakter testowanych zmiennych.

Kurs spss – korelacja Pearsona

Kiedy wykorzystujemy korelację Pearsona ?

Korelacja Pearsona to analiza statystyczna, która wykorzystujemy w celu sprawdzenia czy pomiędzy dwiema zmiennymi występuje liniowa zależność. Jako, że korelacja liniowa Pearsona zaliczana jest do grupy testów parametrycznych, nasze zmienne powinny spełniać następujące założenia.

– rozkłady testowanych zmiennych powinny być normalne

– testowane zmienne powinny być wyrażone na skali ilościowej

W przypadku gdy nasze zmienne nie spełniają powyższych założeń do naszych obliczeń statystycznych możemy wykorzystać korelacje nieparametryczne; Tau Kendalla bądź Rho Spearmana.

Kurs spss – test Kruskala Wallisa

 

Kiedy wykorzystujemy test Kruskala Wallisa ?

Test Kruskala Wallisa stosujemy wtedy gdy chcemy porównać ze sobą dowolną liczbę grup niezależnych. Statystyka Kruskala Wallisa zalicza się do grupy testów nieparametrycznych. Jej parametrycznym odpowiednikiem jest, natomiast jednoczynnikowa analiza wariancji (ANOVA). Test Kruskala Wallisa wykorzystujemy zazwyczaj wtedy gdy nasza zmienna zależna ma charakter porządkowy bądź też ilościowy jednak nie spełnia wymaganych założeń testów parametrycznych.

Kurs spss – test t Studenta dla prób zależnych

 

Kiedy wykorzystujemy test t studenta dla prób zależnych ?

Test t Studenta dla prób zależnych stosujemy wtedy gdy chcemy porównać wyniki dwóch prób zależnych. Statystykę tą zaliczamy do grupy testów parametrycznych przez co testowane przez nas zmienne powinny spełniać pewne założenia.

– zmienne powinny być wyrażone na skali ilościowej

– zmienne powinny charakteryzować się rozkładem normalnym

Jeżeli, nasze zmienne nie spełniają któregoś z założeń możemy zastosować nieparametryczny odpowiednik testu t Studenta dla prób zależnych, którym jest test Wilcoxona.