Dobór próby – losowanie zespołowe i wielostopniowe

PS IMAGO PRO oraz PS QUAESTIO PRO umożliwiają przygotowanie złożonych, wielostopniowych schematów losowania.

Prawidłowo przeprowadzony losowy dobór próby jest jednym z kluczowych elementów umożliwiających wnioskowanie o cechach populacji na podstawie wyników uzyskanych w procesie badania. PS IMAGO PRO oraz jego dedykowane realizacji badań rozwiązanie PS QUAESTIO PRO umożliwiają dobór respondentów/jednostek do badania zarówno za pomocą prostego doboru losowego, jak i przy wykorzystaniu bardziej skomplikowanych planów. W poprzednim tekście przybliżyliśmy użytkownikom możliwości, których dostarcza pakiet Complex Samples – dobór próby w oparciu o losowanie proste oraz za pomocą schematu warstwowego. Zostały tam omówione różnice i zastosowania obydwu schematów doboru. Tym razem skupię się na kolejnym sposobie probabilistycznego doboru jednostek do badania – schemacie losowania zespołowego.

Dodatkowo PS IMAGO PRO oraz PS QUAESTIO PRO umożliwiają przygotowanie złożonych, wielostopniowych schematów losowania. Ich przygotowanie, chociaż na pierwszy rzut oka wydaje się bardzo skomplikowane jest w istocie intuicyjne – przez całą procedurę przeprowadza nas przyjazny kreator. Wielostopniowy dobór próby zostanie omówiony w drugiej części artykułu. Warto podkreślić, że przed przystąpieniem do losowania należy zastanowić się, jaki jest cel przeprowadzanego doboru jednostek do badania/analizy: między innymi o jakiej zbiorowości chcemy wnioskować, jakie są nasze cele badawcze, jakie są możliwości realizacji badania, czy mamy odpowiednio przygotowany operat losowania, wreszcie czy jesteśmy w posiadaniu odpowiednich danych, aby przeprowadzić losowanie zgodne z naszymi zamierzeniami. Każdy ze schematów losowania ma swoje zalety, jak również obarczony jest pewnymi wadami i zwykle ma konkretne zastosowania w praktyce badawczej. Zagadnienia te zostały już wstępnie omówione w poprzednim tekście na temat doboru próby; bardziej szczegółowe rozważania na ten temat musimy odłożyć do kolejnych artykułów z tego cyklu.

Dobór zespołowy

Alternatywą dla doboru prostego oraz warstwowego może być losowanie zespołowe. Cechą wyróżniającą dobór zespołowy jest to, że na pierwszym etapie losowania (lub inaczej: zanim przystąpimy do doboru właściwych jednostek do badania) dokonujemy losowania zespołów, czy też innymi słowy grup do których przynależą „docelowi” respondenci. Ten typ losowania wykorzystujemy głównie wówczas, kiedy nie posiadamy operatu jednostek (respondentów) na podstawie którego moglibyśmy przeprowadzić losowanie. Przykładowo: chcąc badać uczniów względnie łatwo jesteśmy w stanie pozyskać operat do losowania szkół, natomiast uzyskanie listy wszystkich uczniów jest już zadaniem bardzo kosztownym. Kolejnym potencjalnym zastosowaniem jest sytuacja, gdy koszty dotarcia do poszczególnych badanych są bardzo duże. Przykładem takich problemów realizacyjnych może być duże geograficzne rozproszenie respondentów podczas realizacji badania przy pomocy wywiadu osobistego. Z pozoru dobór zespołowy brzmi jak idealne recepta na wszystkie problemy badacza. Zamiast wylosować 1000 respondentów na próbie ogólnopolskiej szybciej i taniej jest wylosować 10 miejscowości w nich przebadać po 100 osób. Niestety dobór zespołowy nie jest pozbawiony wad. Efektywność takiego losowania w znacznym stopniu zależy od zróżnicowania jednostek w zespołach. Im jest ono większe a przy tym zróżnicowanie pomiędzy zespołami mniejsze tym dobór zespołowy będzie bardziej efektywny. Duże różnice pomiędzy wewnętrznie homogenicznymi zespołami mogą rodzić poważne problemy interpretacyjne . W praktyce przy dużym zróżnicowaniu pomiędzy zespołami losowanie tego rodzaju obarczone jest sporym ryzykiem trafienia na grupy, jeżeli nie ekstremalne, to w każdym razie nietypowe dla badanej zbiorowości. Problem ten może zostać następnie zwielokrotniony poprzez zbadanie „nietypowych” jednostek wchodzących w skład zespołu. Łatwo jest sobie wyobrazić sytuację, że podczas losowania szkół z operatu trafiamy na elitarną placówkę, której uczniowie będą bardzo odlegli od zwykłego nastolatka. Czy jednak te zastrzeżenia dyskwalifikują tę metodę losowania? Oczywiście nie! Abstrahując od filozoficznych rozważań na temat pojęcia „typowości”, ryzyko wystąpienia takiej sytuacji rodzi problemy, które trzeba rozwiązać na etapie planowania badania (lub przynajmniej być ich świadomym). W tej sytuacji pomóc może właściwy dobór warstw i prawidłowe zdefiniowanie badanej populacji. A może spróbować przeprowadzić losowanie według złożonego schematu łączącego losowanie warstwowe z zespołowym? Na pewno kluczowa okazuje się wiedza o posiadanym operacie. Ten prosty przykład pokazuje, że dobór próby wymaga szczegółowego namysłu zanim klikniemy w kreatorze przycisk „Wylosuj próbę”.

Losowanie zespołowe w PS IMAGO PRO i PS QUAESTIO PRO

Przejdźmy jednak do kreatora losowania próby w module Complex Samples. Menu [Próby Złożone] w zakładce [Analiza] umożliwia (jak to zostało opisane w poprzednim tekście), między innymi zaprojektowanie i wylosowanie próby według zaplanowanego schematu. Rozważmy przykład- - mamy za zadanie przeprowadzić analizę realizacji programu wspierania osób bezrobotnych, który był wdrażany przez samorząd lokalny w gminach miejskich, miejsko-wiejskich oraz wiejskich. Programem nie były objęte miasta na prawach powiatu, więc należy je wykluczyć z analizy. Badanie skuteczności realizacji programu obejmuje analizę sposobu wydatkowania funduszy a także serię wywiadów ankietowych z pracownikami przyznającymi środki oraz z beneficjentami programu. Ważnym elementem badania jest również „wizja lokalna”, która ma obejmowaćmiędzy innymi ocenę zmian jakie zaszły w życiu beneficjentów oraz raport z podziału środków w ramach programu. Ostatecznie dla gminy objętej badaniem zostaną obliczone specjalnie skonstruowane wskaźniki efektywności programu. Tak złożone badanie wymaga najpierw wylosowania gmin, w których następnie zostaną zrealizowane wywiady. Dopiero na poziomie gmin badacze będą mogli przeprowadzić dobór respondentów do właściwego badania ankietowego. Operat losowania składa się z 2412 gmin (stan na 2017) – 236 gmin miejskich, 1555 gmin wiejskich i 621 gmin miejsko-wiejskich. Nasza próba będzie stanowiła ok. 5% gmin, czyli 120 przypadków. Na początek przeprowadźmy proste losowanie. Jego wykonanie przy pomocy modułu Complex Samples zostało opisane w poprzednim tekście, więc w tym miejscu skoncentrujmy się na wyniku. Został on zaprezentowany w ujęciu powiatowym na poniższej mapie. Na wizualizacji zaznaczono liczbę gmin wylosowanych w poszczególnych powiatach.

 

Rysunek 1. Wynik prostego losowania 120 gmin

Rysunek 1. Wynik prostego losowania 120 gmin

Jak widać gminy rozsiane są po całej Polsce, a taki rozrzut generuje ogromne koszty dotarcia do respondentów. 120 wylosowanych gmin znalazło się w 95 powiatach, z czego aż w 74 powiatach wylosowano tylko 1 gminę. Nawet przy efektywnym opracowaniu harmonogramu dojazdów ocena programu może trwać dłużej niż trwała jego realizacja, jak również może wymagać zatrudnienia znacznej liczby ankieterów terenowych. Alternatywną opcją może być w tym przypadku dobór zespołowy. Możliwe są 2 sposoby postępowania: albo w wylosowanych zespołach badaniem obejmuje się wszystkie jednostki, albo też przeprowadza się dodatkowe losowanie wśród jednostek wchodzących w skład zespołu. Chcąc badać gminy musimy więc dokonać wyboru, czy losujemy powiaty a w nich badaniem obejmujemy wszystkie gminy, czy też w wylosowanych powiatach na kolejnym etapie wybieramy zadaną liczbę gmin, do których następnie udadzą się ankieterzy. Decydując się na pierwsze rozwiązanie musimy pamiętać, że powiaty mogą składać się z od 3 do 19 gmin i nie jesteśmy w stanie kontrolować docelowej wielkości próby (czyli tego, ile gmin ostatecznie wejdzie do naszego badania). W przypadku dostania się do próby zbyt licznych powiatów, konieczne może się okazać dodatkowe losowanie z wykorzystaniem osobnego schematu. Lepszym (mniej skomplikowanym) rozwiązaniem w naszej sytuacji wydaje się wykorzystanie możliwości dodania w [Kreatorze losowania prób] kolejnego etapu doboru próby. Inaczej mówiąc przeprowadzimy losowanie powiatów, a następnie podczas jednej procedury wylosujemy stałą liczby gmin w ich obrębie. Jak w praktyce przeprowadzić takie losowanie? Odszukajmy w zakładce [Analiza ] menu [Próby Złożone] i uruchommy kreator [Wybór próby]. Po wskazaniu pliku, do którego zostanie zapisany nasz plan losowania, możemy przejść do etapu wyboru zmiennych. 

Rysunek 2. Wybór zmiennych planu losowania

Rysunek 2. Wybór zmiennych planu losowania

Należy w tym miejscu wskazać zmienną, która będzie niosła informację o przynależności do losowanych zespołów. W naszym przypadku jest to Kod powiatu (kod_pow). Po przeniesieniu zmiennej do pola [Zespoływedług] należy kliknąć przycisk [Następny] Kolejne okno umożliwia wybór metody losowania. Nie wdając się w szczegółowe rozważania można je podzielić na losowanie proste (wówczas wszystkie zespoły mają jednakowe prawdopodobieństwo wejścia do próby) oraz proporcjonalne (wówczas prawdopodobieństwo wejścia do próby zależy od wielkości zespołu). Dodatkowe możliwości dają dobór systematyczny (co n jednostek z losowym punktem startowym) i sekwencyjny (program generuje sekwencję według której dobierane są jednostki do badania). 3 ostatnie techniki doboru proporcjonalnego( Brewera, Murty’ego i Sampforda) dedykowane są dla losowania zespołów we wcześniej zdefiniowanych warstwach. My wykorzystajmy dobór prosty losowy bez zwracania.

Rysunek 3. Wybór metody losowania

Rysunek 3. Wybór metody losowania

Kolejne okno kreatora –to wybór liczebności próby. W przypadku losowania zespołowego w tym oknie wskazujemy liczbę (lub proporcję) zespołów, które powinny zostać wylosowane. Zdecydowałem się wylosować 30 zespołów. Na kolejnym etapie możemy zdecydować o zapisie do zbioru danych: wielkości populacji, wielkości próby, proporcji próby oraz wagi próby. Przejdźmy do okna podsumowania planu. W tym miejscu możemy zdecydować, czy chcemy zakończyć etap przygotowań i w dalszej kolejności wylosować próbę (domyślnie zaznaczona jest opcja [Nie dodawaj kolejnego etapu]), czy też chcemy przygotować bardziej złożony plan, czyli dodać kolejny etap. Jeżeli zdecydujemy się na pierwsze rozwiązanie, ze zbioru danych zostanie wylosowanych 30 powiatów i wszystkie gminy, które wchodzą w ich skład. Nic nie stoi na przeszkodzie, żeby na nowym, przefiltrowanym zbiorze danych przeprowadzić ponownie losowanieproste lub warstwowe – uwzględniając przykładowo nierówne liczby gmin w każdym powiecie (można wylosować 3 gminy w małych powiatach, 4 w średnich i 5 w największych). Możemy również zdecydować się na przeprowadzenie badania w każdej z wylosowanych gmin. Utrudnieniem może być jednak to, że nie jesteśmy w stanie za pomocą kreatora kontrolować liczby gmin, które ostatecznie wejdą do badania. Efektywniejszą opcją wydaje się ponowienie losowania gmin na już wylosowanych powiatach albo budowa bardziej rozbudowanego, jednego planu losowania. My zdecydujemy się właśnie na tę złożoną opcję: w każdym z wylosowanych powiatów wylosujemy na kolejnym etapie 4 gminy, w których zostanie przeprowadzone badanie.

Rysunek 4. Dodanie kolejnego etapu losowania

Rysunek 4. Dodanie kolejnego etapu losowania

 Po kliknięciu przycisku [Następny] zostaniemy przekierowani do znanego nam już okna wyboru zmiennych planu. Aby wylosować po 4 gminy w każdym z wylosowanych wcześniej powiatów nie musimy już nic wybierać. Nie dodajemy więc żadnej zmiennej, a w kolejnym oknie pozostawiamy metodę losowania: [Losowanie Proste, bez zwracania (LBZ)]. Na kolejnym etapie, w oknie definiowania wielkości próby, możemy zdecydować o losowaniu stałej liczby gmin w powiatach wybierając opcję [Liczebność] i wpisując w polu poniżej liczbę jednostek do wylosowania (w naszym przypadku 4). Warto pamiętać, że jeżeli wylosowany powiat będzie miał mniej niż 4 gminy, to system wybierze po prostu wszystkie jednostki ( zostaniemy o tym poinformowani w raporcie po przeprowadzeniu procedury doboru próby). W kolejnych oknach pozostaje nam zdecydować o wyborze zmiennych zapisywanych w zbiorze danych, zażądać od PS IMAGO PRO (lub PS QUAESTIO PRO) wylosowania próby i wskazać docelowy zbiór danych, w którym zostaną zapisane wylosowane obserwacje (aktywny zbiór danych, nowy zbiór danych lub nowy plik). Efekty naszego losowania zostały zaprezentowane na zamieszczonej poniżej mapie.

Rysunek 5. Powiaty wylosowane w ramach losowania zespołowego

Rysunek 5. Powiaty wylosowane w ramach losowania zespołowego

Na mapie widoczne jest 30 powiatów, w każdym z nich zostały wylosowane 4 gminy, w których powinno zostać przeprowadzone badanie. Jeżeli nasze losowanie nie zakłada innych celów (np. równomierny podział wylosowanych gmin na województwa) możemy w tym miejscu zakończyć procedurę losowania.

Losowanie warstwowo-zespołowe w PS IMAGO PRO i PS QUAESTIO PRO

Spróbujmy jednak skomplikować sytuację. Widać, że powiaty nie są rozrzucone równomiernie po całej Polsce. Gdyby zależałoby na równomiernej reprezentacji geograficznej, moglibyśmy wylosować po 2 powiaty w każdym województwie, zaś w mniejszych województwach (opolskie, lubuskie) po 1 powiecie. Na pierwszym etapie dokonalibyśmy więc podziału operatu na warstwy, a w nich następnie wylosowalibyśmy zespoły według zadanej liczebności. Innym podejściem do problemu warstwowania może być podział merytoryczny. Beneficjentami analizowanego projektu były osoby bezrobotne – być może powiaty powinniśmy wylosować uwzględniając to kryterium. Stopa bezrobocia rejestrowanego jest publikowana przez Główny Urząd Statystyczny na stronie Banku Danych Lokalnych w ujęciu powiatowym . W naszej analizie nie uwzględniamy powiatów grodzkich. Poniżej na histogramie zaprezentowany został rozkład stopy bezrobocia w powiatach.

 

Rysunek 6. Rozkład stopy bezrobocia w powiatach

Rysunek 6. Rozkład stopy bezrobocia w powiatach

Stopa bezrobocia waha się od 1,7 % (powiat poznański) do 25,7 % (powiat szydłowiecki), przeciętna stopa bezrobocia dla powiatu wynosi 9,2 % a mediana 8,2 %. Na nasze potrzeby dokonajmy podziału powiatów na 3 kategorie – powiaty o niskiej stopie bezrobocia (do 5 % średniej (pomiędzy 5 a 10 % oraz dużej (10 % i więcej). Efekty podziału zostały zamieszczone w poniższej tabeli. Pamiętajmy, że gdybyśmy w analizie uwzględnili powiaty grodzkie wynik byłby odmienny.

 Rysunek 7. Rozkład stopy bezrobocia według powiatów

 Rysunek 7. Rozkład stopy bezrobocia według powiatów

Dodajmy więc nowy element do naszego losowania. Zanim wylosujemy powiaty, musimy dokonać podziału operatu gmin na warstwy według nowej zmiennej – stopy bezrobocia podzielonej na 3 kategorie. Wróćmy do etapu losowania próby. Aby przeprowadzić losowanie zespołów w warstwach należy równocześnie wskazać na pierwszym etapie zmienną z warstwami oraz zmienną z zespołami. Rozbicie tego procesu na 2 osobne etapy nie jest możliwe, jednak ostateczny efekt będzie zgodny z zamierzeniami.

Rysunek 8. Wybór zmiennej warstw i zespołów

Rysunek 8. Wybór zmiennej warstw i zespołów

Przy wyborze metody losowania pozostańmy przy losowaniu prostym bez zwracania. Dzięki temu każdy powiat/zespół w warstwie wyznaczonej przez skategoryzowaną stopę bezrobocia będzie miał równe prawdopodobieństwo wejścia do próby. Powiaty o większej liczbie gmin nie będą więc premiowane, zgodnie z naszymi założeniami. Jeżeli chcielibyśmy uwzględniać liczbę gmin w losowaniu powiatów (większe jednostki będą miały większe szanse znaleźć się w próbie) powinniśmy wybrać opcję losowania proporcjonalnego. Na kolejnym etapie w oknie definiowania wielkości próby musimy podać ponownie liczbę zespołów do wylosowania w każdej warstwie (możliwe jest także wykorzystanie proporcji). Tak jak planowaliśmy przyjmijmy wartość równą dla wszystkich warstw, czyli 10. Aby wylosować gminy według jednego planu musimy na etapie podsumowania wybrać opcję dodania nowego etapu, tak jak robiliśmy to w poprzednim losowaniu. Tak jak poprzednio nie musimy już definiować dodatkowych zmiennych, dobór gmin odbędzie się za pomocą prostego losowania bez zwracania. Z każdego powiatu zostaną wylosowane 4 gminy, co definiujemy wskazując w oknie określania wielkości próby właściwą wartość. Podsumowanie wykreowanego planu zostało zamieszczone poniżej.

Rysunek 9. Podsumowanie planu losowania

Rysunek 9. Podsumowanie planu losowania

Ostatnia tabela poniżej wskazuje, że osiągnęliśmy zamierzony cel. W każdej z warstw zbudowanych według pogrupowanej stopy bezrobocia wylosowaliśmy 40 gmin (po 4 na każdy powiat).

 Rysunek 10. Liczba wylosowanych gmin według stopy bezrobocia w powiecie

 Rysunek 10. Liczba wylosowanych gmin według stopy bezrobocia w powiecie

Podsumowując: PS IMAGO PRO pozwala na budowę nawet skomplikowanych schematów doboru jednostek do badania. Ważne jednak, by losowanie było przeprowadzone z rozsądkiem, po uprzednim rozważeniu celów badania i możliwości realizacyjnych. Warto dodać na zakończenie, że możliwości pakietu Complex Samples nie kończą się tylko na projektowaniu i losowaniu próby. Moduł pozwala również na uwzględnienie schematu doboru próby podczas analizy danych (szacowania parametrów populacji, tabele krzyżowe, modele regresyjne). Ten temat odłożymy jednak do kolejnych tekstów na ten temat.


Szkolenia

Osoby, które chcą opanować umiejętność losowania prób i analizy danych z prób złożonych zapraszamy do uczestnictwa w szkoleniu AN3 – Badania ankietowe. Losowanie prób, ważenie, analiza braków danych.


Powiązane wydarzenia: