Redukcja wielowymiarowości

Spis treści [Ukryj]

Czy zwykły, dwuwymiarowy układ współrzędnych zawsze nam wystarczy?

Korzystając z zaawansowanych technik analizy danych, czy nawet tylko czytając o nich, często spotykamy się z określeniem „technika wielowymiarowa”. Czy rzeczywiście na świecie istnieje wiele wymiarów? Tradycyjnie mówi się o istnieniu tylko trzech: szerokości, wysokości i głębokości. Czwarty, piąty, szósty wymiar – to brzmi jak idea rodem z filmu science fiction!

Jak wyobrazić sobie wielowymiarowość?

Zanim odlecimy w kosmos, gdzie przekonwertujemy się do czwartego wymiaru, zejdźmy na chwilę na ziemię i rozważmy prosty przykład. Zaczniemy od jednowymiarowej reprezentacji graficznej dwóch punktów. Dane są punkty A i B. Odległość pomiędzy nimi wynosi dwie jednostki. Położenie punktów na osi x przedstawia poniższy wykres.

Rysunek 1. Jednowymiarowa reprezentacja graficzna położenia punktów

Rysunek 1. Jednowymiarowa reprezentacja graficzna położenia punktów

Wyobraźmy sobie, że istnieje trzeci punkt C, który położony jest w odległości ok. 3 jednostek od punktu A i równocześnie w odległości ok. 3 jednostek od punktu B. Jeśli ograniczymy się tylko do jednej osi, to przedstawienie położenia punktu C jest niemożliwe. Jeśli odległość AC ma wynosić 3, to musielibyśmy ustawić go albo na wartości 5, albo na wartości -1 na osi x. Jednak w żadnym z tych przypadków, odległość BC nie będzie wynosiła 3. Jedynym sposobem jest dodanie drugiej osi – osi y, a więc stworzenie przestrzeni dwuwymiarowej zamiast jednowymiarowej.  

Rysunek 2. Dwuwymiarowa reprezentacja graficzna położenia punktów

Rysunek 2. Dwuwymiarowa reprezentacja graficzna położenia punktów

 Na razie sprawa jest dosyć prosta. Dodajmy w takim razie jeszcze jeden punkt. Odległości nowego punktu D względem punktów A, B i C przedstawia poniższa tabelka.  

Tabela 1. Odległości punktu D od punktów A, B i C

Tabela 1. Odległości punktu D od punktów A, B i C

Czy zwykły, dwuwymiarowy układ współrzędnych nam wystarczy? Wygląda na to, że nie. Punkt, który oddalony jest o podane wielkości od pozostałych punktów, musi znajdować się albo „w głębi” wykresu, albo bliżej nas. Aby dodać taki punkt, musimy dorysować do wykresu jeszcze jeden wymiar. Oczywiście na płaskiej kartce papieru nie jest możliwe narysowanie trójwymiarowej przestrzeni tak, aby dokładnie odwzorować wszystkie odległości pomiędzy punktami. Poniższe przedstawienie może być pomocne w tym, aby wyobrazić sobie układ punktów, ale tak naprawdę najlepiej byłoby zbudować trójwymiarowy model. Widzimy więc, że już trzy wymiary mogą sprawiać nam pewne trudności. Ale zabawa dopiero się zaczyna!

Rysunek 3. Trójwymiarowa reprezentacja graficzna położenia punktów

Rysunek 3. Trójwymiarowa reprezentacja graficzna położenia punktów

Z punktu widzenia matematyki, nie ma właściwie powodu, żebyśmy mieli poprzestać na trzech wymiarach. Możemy przecież do naszej przestrzeni wprowadzać kolejne punkty. Oczywiście niektóre punkty da się ulokować w przestrzeni przy wykorzystaniu dotychczasowych wymiarów, ale czasami nieodzowne będzie wprowadzenie kolejnego wymiaru. Niestety, nie przedstawimy go już graficznie, ale możemy na przykład wyliczyć współrzędne danego punktu na czwartym, szóstym czy nawet dwunastym wymiarze…

Do takiej sytuacji może dojść także podczas analizy danych z badań społecznych, czy konsumenckich. Załóżmy, że chcemy dowiedzieć się, które marki, w oczach konsumentów, są do siebie najbardziej podobne, a które bardzo się od siebie różnią. Wprowadzając oceny konsumenckie do analizy, możemy nawet nie zdawać sobie sprawy, że procedura analityczna musi na podstawie tych danych wyliczyć macierz odległości pomiędzy markami. Jeśli wymagamy od programu, aby przedstawił nam podobieństwa pomiędzy markami w formie graficznej, to stawiamy go przed trudnym problemem: jak w dwóch wymiarach pokazać coś, co w rzeczywistości jest wielowymiarowe? Żeby sobie z tym poradzić, konieczna będzie redukcja wielowymiarowości.

Idea redukcji wielowymiarowości

Do tej pory utrudnialiśmy sobie życie, a teraz pomyślimy nad tym jak je sobie ułatwić. Zamiast dokładać kolejne wymiary, zajmiemy się teraz ich redukcją, czyli sprowadzeniem przestrzeni wielowymiarowej do mniejszej ilości wymiarów. Zgadzamy się już, że położenie punktu może być określone na wielu różnych wymiarach. Jednak ze względu na to, że bardzo trudno wyobrazić sobie punkty leżące w przestrzeni wielowymiarowej, chcielibyśmy sprowadzić te punkty do trzech, a najlepiej dwóch wymiarów. Zmniejszanie ilości wymiarów jest możliwe przez rzutowanie punktów na płaszczyznę. Wróćmy do rozpatrywanego wcześniej przykładu. Mogę zignorować istnienie trzeciego wymiaru i rzutować punkt D na płaszczyznę wyznaczoną przez układ współrzędnych xy.

Rysunek 4. Rzutowanie położenia punktów na płaszczyznę wyznaczoną przez osie XY

Rysunek 4. Rzutowanie położenia punktów na płaszczyznę wyznaczoną przez osie XY

Otrzymujemy wynik, który jest pewnym zafałszowaniem – punkt D wygląda tak, jakby leżał blisko pozostałych punktów, choć wiemy, że jego faktyczna odległość była większa. Możemy w takim razie wykonać inny rzut. Spróbujmy wykorzystać osie z i y.  

Rysunek 5. Rzutowanie położenia punktów na płaszczyznę wyznaczoną przez osie ZY

Rysunek 5. Rzutowanie położenia punktów na płaszczyznę wyznaczoną przez osie ZY

Teraz widać, że punkt D jest daleko od innych. Za to pojawia się problem z punktami A i B, które „nałożyły się na siebie” i wyglądają tak, jakby były położone w tym samym miejscu. Oczywiście jest to spowodowane tym, że zignorowaliśmy istnienie wymiaru x, który odpowiada za zróżnicowanie punktów A i B. Jest jeszcze trzecia możliwość – można wykorzystać osie x i z. Które odległości będą wtedy dobrze odwzorowane, a które będą się wydawały mniejsze niż w rzeczywistości? Odpowiedź na to pytanie pozostawiam już Wam.

Na razie rzutowanie punktów na płaszczyznę nie wydaje się satysfakcjonujące. Pomyślmy jednak o tym, że płaszczyzna na którą rzutujemy punkty, nie musi być równoległa do istniejących osi. Możemy taką płaszczyznę dowolnie „ustawić” w naszym sześcianie. Znalezienie odpowiedniej płaszczyzny pozwoli na dobre odzwierciedlenie faktycznego położenia punktów w przestrzeni. Nigdy nie będzie ono idealne, ale można się postarać, aby zafałszowanie było jak najmniejsze.

Z dotychczasowych rozważań płynie następujący wniosek: jeśli chcemy uprościć sobie życie i zredukować ilość wymiarów, to musimy się niestety zgodzić na utratę pewnej części informacji o zróżnicowaniu obiektów. Jest jednak duża szansa, że takie posunięcie się opłaci. Przy umiejętnym wybraniu płaszczyzny, utrata informacji będzie niewielka, a korzyści jakie wyniesiemy z redukcji wymiarów mogą być bardzo duże.

Który wymiar jest ważny, a który nie?

Teraz zastanowimy się nad tym, czy można powiedzieć, że jakiś wymiar jest ważniejszy od innego i na jakiej podstawie możemy to stwierdzić. Popatrzmy na poniższy dwuwymiarowy układ współrzędnych i punkty rozrzucone w tym układzie.

Rysunek 6. Reprezentacja położenia punktów P, Q, R i S w przestrzeni dwuwymiarowej

Rysunek 6. Reprezentacja położenia punktów P, Q, R i S w przestrzeni dwuwymiarowej

Jeśli mielibyśmy sprowadzić te punkty do jednego wymiaru wykorzystując oś x lub oś y, to którą z nich lepiej byłoby wybrać? Na poniższym wykresie znajduje się rezultat rzutowania punktów na oś x.

mapka

Rysunek 7. Wynik rzutowania punktów P, Q, R i S na oś X

Porównajmy to z wynikiem rzutowania punktów na oś y.  

mapka

Rysunek 8. Wynik rzutowania punktów P, Q, R i S na oś Y

Punkty są silniej zróżnicowane na pierwszym wymiarze (za który odpowiada oś x). Usunięcie go skutkuje bardzo dużą utratą informacji. Drugi wymiar (reprezentowany przez oś y) stanowi pewną dodatkową wartość, ale nie jest kluczowy. Usuwając go, tracimy co prawda trochę informacji, ale utrata nie jest aż tak duża. Jeśli byłaby konieczność usunięcia jednego z tych dwóch wymiarów, na pewno wolelibyśmy usunąć wymiar reprezentowany przez oś y.

Przez analogię pomyślmy teraz o przestrzeni wielowymiarowej. Najczęściej będziemy chcieli sprowadzić wszystkie punkty do dwóch wymiarów. Aby w tym czasie utracić jak najmniej informacji, będziemy szukać takich dwóch wymiarów, które odpowiadają za największe rozproszenie punktów. Do znalezienia takich wymiarów możemy wykorzystać m.in. analizę korespondencji.

Poświęćmy jeszcze chwilę na podsumowanie tego, o czym pisałam. Po pierwsze, trzeba będzie jednak trochę przychylniejszym okiem spojrzeć na filmy science fiction. Istnienie wielu wymiarów nie jest wcale bezsensowną teorią. Po drugie, ze względu na (niestety!) ograniczenia ludzkiego umysłu, jesteśmy zmuszeni pomagać sobie w analizie danych poprzez sprowadzanie wielowymiarowych zjawisk do dwóch wymiarów. Godzimy się przy tym na utracenie części informacji. Na szczęście, dzięki temu, że nie wszystkie wymiary są równie ważne, możemy odrzucić te z nich, które i tak nie wniosłyby wiele informacji do analizy.

Szkolenia

Analiza korespondencji jest techniką analizy danych dostępną w PS IMAGO PRO. Osoby zainteresowane tą procedurą zapraszamy na szkolenie MC3a - Pozycjonowanie z wykorzystaniem map percepcyjnych i technik skalowania optymalnego.


Powiązane wydarzenia: