Skąd brać dane? Plusy i minusy analizy danych zastanych

Zarówno w biznesie, jak i w nauce rozwój nie jest możliwy bez prowadzenia badań.

To za każdym razem skomplikowany proces, a do jego poprawnej realizacji potrzebna jest nie tylko wiedza, ale i doświadczenie. Jednak kluczowe są w tym procesie zawsze dane. Dlatego też w tym wpisie skupię się na kwestiach związanych właśnie z danymi. Postaram się odpowiedzieć na pytania dotyczące tego, czym są dane oraz do czego są potrzebne, czy dane można podzielić według konkretnych kryteriów oraz czy dane pochodzą tylko z badań.

Czym są dane?

Na początku warto się zastanowić, co rozumiemy pod terminem „dane”. Definicji tego pojęcia jest bardzo dużo i – jak zwykle w takich wypadkach – trudno wskazać jedną, która będzie idealna, pełna i precyzyjna.[1] W szerokim ujęciu danymi możemy określić wszystko to, co jest lub może być przetwarzane w celu uzyskania informacji. Mogą to być np. treści wytwarzane przez człowieka, ale również wskazania różnego rodzaju wskaźników lub sensorów maszyn. Przede wszystkim nie powinniśmy mylić danych z informacjami. Dane najczęściej nie są uporządkowane i nie są przetworzone, zazwyczaj odnoszą się do przeszłości. Mogą nieść za sobą informację dopiero pod warunkiem, że zostaną przetworzone, przeanalizowane oraz ustrukturyzowane. [2]

Zostaną wtedy wykorzystane do zbudowania określonych komunikatów, np. biorąc pod uwagę obecną sytuację na rynku, należy podjąć decyzję o obniżeniu lub podniesieniu cen sprzedawanych produktów. Tak więc dane same w sobie nie stanowią wartości dla badacza, naukowca lub menadżera. Dopiero odpowiednie opracowanie pozyskanych danych, ich analizy będą tworzyły informacje, które mogą być użyteczne. Nie wchodząc w zawiłości definicyjne z zakresu zarządzania wiedzą oraz teorii informacji warto jeszcze nadmienić, że proces pracy z danymi, a następnie przygotowywania na ich podstawie informacji stanowi bazowy poziom hierarchii struktury wiedzy, która często jest prezentowana w formie tzw. piramidy DIKW (od pierwszych liter słów Data – dane, Information – informacja, Knowledge – wiedza oraz Wisdom – mądrość). 

Piramimda wiedzy (schemat DIKW) Rysunek 1. Piramida wiedzy
Źródło: Opracowanie własne na podstawie: https://en.wikipedia.org/wiki/DIKW_pyramid

Po co nam dane?

Poddane analizie dane pozwalają pozyskać informacje, które mogą być wykorzystane do podejmowania skutecznych, opartych o racjonalne przesłanki decyzji. W badaniach naukowych pozyskiwanie danych i ich analiza jest kluczowym elementem pozwalającym odpowiedzieć na postawione przez naukowca pytania badawcze, a tym samym na rozwój nauki. W przypadku biznesu chodzi przede wszystkim o podejmowanie decyzji, które pozwolą na rozwijanie biznesu, zdobywanie nowych klientów, na poprawianie jakości, czy też na tworzenie nowych produktów i usług, które będą prowadzić do maksymalizacji zysków. W przypadku administracji publicznej lub organizacji pozarządowych pozyskanie danych o sytuacji społecznej, ekonomicznej lub kulturowej pozwala na przeprowadzenie diagnozy oraz wprowadzenie działań, które wpłyną na poprawę wielu aspektów życia obywateli.

Podział danych

Warto również zwrócić uwagę, że dane można podzielić na zastane oraz wywołane. Dane zastane są dostępne dla badacza bez jego interwencji. Są one najczęściej wytwarzane np. przez innych badaczy lub w dużej mierze powstają w wyniku gromadzenia i dokumentowania życia publicznego.[3] Dane zastane można podzielić ze względu na ich formę (dane surowe, opracowane), sposób powstawania (dane pierwotne, wtórne), poziom obiektywizmu (obiektywne, subiektywne), itp.[4] Często dane zastane są pierwszym krokiem do poznania skali zjawiska jakie interesuje badacza. Druga kategoria danych to dane wywołane, które powstają w rezultacie działania badacza, przy wykorzystaniu różnych technik badawczych np. badań ankietowych, eksperymentów, indywidualnych wywiadów pogłębionych albo grup fokusowych. Proces zbierania danych wywołanych, tj. realizacja badań będzie tematem kolejnych artykułów.

Dane zastane

Duża ilość danych, które można wykorzystać w trakcie badań jest dostępna w różnych repozytoriach, bibliotekach, bazach danych i w Internecie. Rewolucja cyfrowa, a tym samym spopularyzowanie Internetu spowodowały, że generowane są bardzo duże ilości danych. Wytwarzamy dane dodając komentarz pod artykułem, publikując wpis na portalu społecznościowym, wystawiając opinie sprzedawcy po zakończonej aukcji, czy też nawet odwiedzając stronę internetową. Niektóre są generowane przez nas świadomie, inne są zbierane przez różnego rodzaju algorytmy i programy rejestrujące naszą aktywność na stronach internetowych czy w aplikacjach mobilnych. Warto również pamiętać, że dane zastane są dostępne nie tylko w formie „gotowych” plików w formacie .sav lub .xls. W dużej mierze online dostępne są dane, które badacz będzie musiał dopiero pobrać (np. z treści stron www) i zapisać do formatu, który pozwoli na przeprowadzenie analizy. Do danych zastanych można przykładowo zaliczyć:

  • Informacje statystyki publicznej (dane publikowane przez takie instytucje jak GUS, Eurostat, OECD itp.),
  • Dane wewnętrzne firm i instytucji (dane o liczbie sprzedanych produktów, liczbie wejść na stronę internetową, liczbie zgłoszonych wniosków itp.),
  • Filmy, zdjęcia, materiały audio (zarówno w formie cyfrowej i analogowej),
  • Wpisy na blogach, komentarze, a nawet całe strony internetowe lub portale,
  • Książki, gazety, czasopisma itp.,
  • Zawartość mediów społecznościowych,
  • Wyniki zrealizowanych badań (raporty, opracowania, zbiory danych), w tym między innymi sondaży, eksperymentów badawczych, zogniskowanych wywiadów grupowych itp.

Jak widać, dane nie są jedynie uzyskiwane w trakcie badań terenowych. Danymi mogą być również wytwory działań człowieka takie jak filmy, książki, raporty z badań, które mogą nieść ze sobą już skonkretyzowany przekaz. Tego rodzaju materiały, pomimo tego, że dla odbiorcy zawierają konkretną treść, to dla badacza będą danymi do analizy. Jako przykład weźmy filmy z wybranego okresu czasu i o określonej tematyce (np. , przemiany kina gangsterskiego w latach dziewięćdziesiątych, filmy wpisujące się w nurt określany reaganomatografią), które będą analizowane pod względem treściowym i strukturalnym.

Wady i zalety danych zastanych

Na zakończenie warto zastanowić się nad zaletami oraz wadami pracy z danymi zastanymi. Jak już wcześniej wspomniano, dostęp do Internetu sprawił, że pozyskanie danych jest stosunkowo łatwe i nie wymaga podróżowania między bibliotekami lub archiwami (choć w przypadku danych historycznych nadal jest to w dużej mierze konieczne). Warto również zauważyć, że często w badaniach społecznych lub marketingowych analiza danych zastanych (desk research) jest pierwszym etapem pracy badacza nad określeniem skali interesującego go zjawiska. Poniżej kilka głównych kwestii, na które należy zwrócić uwagę wybierając tego rodzaju dane do analizy. Wady:

  • Wiarygodność pozyskanych danych – jedna z największych wad danych zastanych, w wielu przypadkach trudno jest określić, czy zamieszczone dane są prawdziwe, niezmienione lub zafałszowane. W przypadku danych zamieszczanych na stronach rządowych wiarygodność danych będzie większa,
  • Prawa autorskie i prawne ograniczenia do wykorzystania pozyskanych danych,
  • Fragmentaryczność – dane nie zawsze będą przedstawiały cały szereg czasowy, który interesuje badacza lub z jakiś powodów mogą być tematycznie wybrakowane, często są również rozproszone (w sensie źródeł), a w rezultacie nieporównywalne między sobą, często mogą nie być odpowiednio opisane (czyli nie zawierać informacji czego dotyczą),
  • Aktualność danych – dane mogą być nieaktualne (często tak jest w przypadku danych z badań społecznych, które w postaci zbiorów danych są upubliczniane dopiero po pewnym czasie),
  • Trudności techniczne z pozyskaniem danych – nie każdy będzie dysponował umiejętnościami, które pozwolą na sprawne pozyskanie danych zawartych na stronach internetowych oraz ich odpowiednie opracowanie. Dane zastane wymagają często długiego procesu przetwarzania zanim pozwolą na uzyskanie potrzebnych informacji.

Zalety:

  • W większości pozyskanie danych zastanych jest tańsze niż generowanie danych reaktywnych,
  • Dostępność danych – upowszechnienie się Internetu spowodowało, że wiele interesujących dla badacza danych jest dostępna za pośrednictwem Internetu,
  • Brak wpływu badacza na proces powstawania danych oraz ograniczenie tzw. „wypływu ankietera”,
  • Analizy można prowadzić na pełnych zbiorach danych jeśli takie są udostępniane (np. wszystkie numery jakiegoś miesięcznika; często takie materiały są już zdigitalizowane).

Podsumowując, dane zastane często będą stanowiły dla badacza materiał, który pozwoli na zorientowanie się w badanym zjawisku, określenie jak inni badacze podchodzili do podobnego zagadnienia badawczego, jaki był stan badanego zjawiska w przeszłości. Duża część danych może być pozyskana stosunkowo niewielkim kosztem. Internet pozwolił na upowszechnienie się różnego rodzaju danych co powoduje, że badacz często nie musi wertować archiwów lub zbiorów tradycyjnych ponieważ często są one już dostępne w cyfrowej formie. Wykorzystując dane zastane należy zwrócić uwagę na ich wiarygodność oraz aktualność. Często przed analizą takich danych badacz będzie musiał ocenić, czy materiał badawczy, który jest dostępny może wykorzystać do swoich celów, ponieważ dane mogą być ograniczone prawami autorskimi. Na zakończenie warto dodać, że dane są wytwarzane przez każdego z nas, a Internet oraz rozwój techniki sprawił, że coraz łatwiejsze staje się ich wyszukiwanie, przetwarzanie i pobieranie. Warto również zwrócić uwagę, że ogromna ilość generowanych danych przyczyniła się do pojawienia się pojęcia Big Data, które odnosi się do dużych, zmiennych i różnorodnych zbiorów danych, które można wykorzystać do pozyskania użytecznych informacji. Opracowania dużych zbiorów danych nie byłoby możliwe bez rozwoju przeznaczonego specjalnie do tego celu oprogramowania (np. PS CLEMENTINE PRO), które ułatwia i przyspiesza analizę dużych wolumenów danych. Jak już wspominano, dane można podzielić na zastane, czyli takie, które już powstały i analityk nie ma wpływy na ich formę. Drugim rodzajem danych są dane wywołane, tj. takie które można pozyskać przez realizacje badań. Na tym procesie zbierania danych skoncentruje się w kolejnych wpisach.

  [1] Zainteresowanym kwestiami definicyjnymi odsyłam do artykułu „Dane, informacja, wiedza – próba definicji” autorstwa Mariusza Grabowskiego i Agnieszki Zając. [2] https://mfiles.pl/pl/index.php/Dane [3] Sułek A., Ogród metodologii socjologicznej. Warszawa 2002. [4] Zainteresowanych kwestią podziału danych zastanych odsyłam do książki „Analiza danych zastanych” pod redakcją naukową Marty Makowskiej.


Powiązane wydarzenia:


Udostępnij artykuł w social mediach