Wykorzystanie drzew decyzyjnych do oceny skuteczności szkoleń dla osób poszukujących pracy

Drzewa decyzyjne to wydajna i jednocześnie skuteczna metoda analizy.

Jeden z urzędów pracy postanowił przeanalizować efektywność zatrudnieniową szkoleń. Miało to pomóc w skuteczniej planować i organizować tę formę aktywizacyjną w przyszłości[1]. Podczas analizy wykorzystaliśmy technikę drzew decyzyjnych. Jest to bardzo wydajna i jednocześnie skuteczna metoda analizy.

Po pierwsze, algorytm drzew decyzyjnych automatycznie dobiera te zmienne, które najistotniej różnicują zmienną zależną (w tym konkretnym wypadku zmienną: Podjęcie pracy do 3 miesięcy o momentu zakończenia szkolenia). Dzięki temu skraca czas na przeprowadzenie analizy i eliminuje konieczność generowania szeregu tabel krzyżowych, aby sprawdzić siłę wpływu poszczególnych zmiennych na zmienną zależną.

Po drugie, drzewa decyzyjne nie wymagają zaawansowanej wiedzy analitycznej czy statystycznej. Wystarczy wybrać odpowiedni algorytm, zaznaczyć opcje rozwoju drzewa i wybrać zmienne, które nas interesują. Trzecią zaletą drzew decyzyjnych jest to, że wyniki grupowania przedstawiane są w bardzo syntetyczny i łatwy w interpretacji sposób. Czwartą zaletę opiszemy na końcu tego krótkiego artykułu. W przypadku analizy skuteczności szkoleń, spośród wielu dostępnych zmiennych, wykorzystano cechy, które można podzielić na 2 grupy: zmienne charakteryzujące szkolenie oraz zmienne opisujące uczestnika szkolenia.

 

zmienne charakteryzujące szkolenie oraz zmienne opisujące uczestnika szkolenia.

Wyniki selekcji przedstawiamy poniżej.

Przeciętna skuteczność szkolenia, (mierzona faktem podjęcia pracy w ciągu 3 miesięcy od zakończenia szkolenia) wyniosła niemal 30%. Informuje o tym rozkład zmiennej prezentowany na samej górze dendrogramu (w tzw. pniu drzewa). Spośród listy dostępnych zmiennych algorytm wybrał tylko dwie cechy, które różnicują skuteczność aktywizacji bezrobotnych. Na tej podstawie drzewo wyróżnia dwa poziomy gałęzi, przy czym drugi poziom wyrasta jedynie z węzła 3. Przejdźmy do analizy wygenerowanego drzewa. Najistotniejszą zmienną różnicującą powodzenie aktywizacji jest obszar szkolenia (zmienna wymagała od nas uprzedniego rekodowania). W zależności od obszaru przewidywana skuteczność szkoleń wynosi od 2,5%, nawet do 94%. Informują o tym rozkłady procentowe kategorii zmiennej zależnej w poszczególnych węzłach drzewa (węzły od 1 do 4). Najskuteczniejsze są szkolenia z zakresu przedsiębiorczości (skuteczność na poziomie 94%) - najprawdopodobniej jednak stanowią one element szerszego wsparcia urzędu, np. udzielenia dotacji. Warto to zweryfikować w oparciu o wiedzę pracowników urzędu pracy lub w oparciu o przegląd danych dla wybranych uczestników szkoleń z przedsiębiorczości.

Ponad 20-procentową skutecznością zatrudnieniową cechują się szkolenia z następujących kategorii: obsługa maszyn i urządzeń, informatyka i wykorzystanie komputerów, usługi transportowe (w tym kursy prawa jazdy), języki obce, usługi opiekuńcze i zdrowotne oraz z kategorii inne. W przypadku szkoleń z obszarów: operatorzy sprzętu ciężkiego, sprzedaż, handel nieruchomościami, marketing i PR, prace biurowo-księgoweh oraz usługi rzemieślnicze – czyli kategorii, która charakteryzuje się przeciętną skutecznością (na poziomie niespełna 10%).

Kolejną istotną cechą determinującą skuteczność jest poziom wykształcenia uczestnika. Chcąc zwiększyć skuteczność tego typu szkoleń, warto w większym stopniu adresować je do osób dysponujących wykształceniem co najmniej ogólnokształcącym (gdzie przewidywana skuteczność wynosi nie 10%, a ponad 15%).

Kolejną zaletą drzew decyzyjnych jest możliwość wykorzystania schemat grupowania do konstruowania modelu predykcyjnego, który pozwoli przewidywać skuteczność szkoleń dla poszczególnych osób bezrobotnych. Pod tym względem dendrogram pełni rolę grafu, który dostarcza nam jasne reguły do zastosowania operacyjnego, np.: jeżeli szkolenie dotyczy przedsiębiorczości, szanse, że uczestnik podejmie pracę lub zatrudnienie wyniosą 94,4%; jeśli szkolenie dotyczy obszaru: operatorzy wózków jezdniowych lub budownictwo, przewidywana skuteczność szkolenia wyniesie tylko 2,5%. Niemniej ważne jest także to, że można oszacować szanse na podjęcie zatrudnienia z uwzględnieniem wskaźnika ryzyka – to jest błędu niewłaściwego zaklasyfikowania danej osoby. W przypadku utworzonego drzewa ryzyko jest dość niewielkie, wynosi 11%. Oznacza to, że klasyfikując osoby bezrobotne na podstawie zdefiniowanego schematu grupowania na każde 100 osób i określając ich szanse na aktywizację, pomylimy się tylko 11 razy. Pozostałe 89 razy algorytm powinien trafnie przyporządkować szanse na aktywizację danej osoby.

Algorytm budowy drzewa: CHAID

Algorytm budowy drzewa: CHAID. Zmienna zależna: Podjęcie pracy do 3 mies. od zakończenia szkolenia a. Ryzyko b. Macierz klasyfikacji[/caption] Model predykcyjny, taki jak model zbudowany w oparciu o technikę drzew decyzyjnych, oczywiście nie ma charakteru deterministycznego i nie gwarantuje absolutnej skuteczności zawsze i wszędzie. Istnieje szereg cech, które mogą różnicować skuteczność aktywizacji, a które nie zostały uwzględnione w analizie. Zasadnicze znaczenie może mieć tutaj postawa samej osoby bezrobotnej, jej aktywność i poziom determinacji do podjęcia zatrudnienia. Niemniej technikę tę należy postrzegać jako efektywne narzędzie służące do wspierania procesów decyzyjnych w oparciu o analizę danych (evidence based policy). Z pewnością stanowi ona interesującą i godną polecenia alternatywę dla osób, od których oczekuje się tego typu analiz, a które nie dysponują zaawansowanym warsztatem analitycznym.

[1] Dla potrzeb analizy wykorzystano dane z SI Syriusz dotyczące organizowanych szkoleń oraz dane dotyczące wykreśleń osób bezrobotnych z rejestru powiatowego urzędu pracy.


Szkolenia

Drzewa decyzyjne jest techniką analizy danych dostępną w PS IMAGO PRO. Osoby zainteresowane tą procedurą zapraszamy na szkolenie MC2a - Segmentacja rynku i profilowanie klientów.


Powiązane wydarzenia: