www.eprace.edu.pl » sztuczna-inteligencja » Techniki wstępnego przetwarzania danych » Inicjalizacja danych klasyfikacyjnych

Inicjalizacja danych klasyfikacyjnych

Inicjalizacja danych wieloparametrowych, poddawanych klasyfikacji, jest podobna do tej z rozdziału 4.2 , lecz nie identyczna. Dane poddawane klasyfikacji posiadają wiele parametrów, które należy pojedynczo normalizować/standaryzować.

Wybór zmiennych objaśniających

Nieraz spotykamy się z danymi klasyfikacyjnymi, które posiadają bardzo dużą ilość zmiennych objaśniających (parametrów). Kiedy próbujemy stworzyć dla nich model danych np. za pomocą Sieci Neuronowych, lub takich algorytmów jak K-Najbliższych Sąsiadów lub podobnych, zdarza się, że wyniki testów klasyfikacyjnych są dla nas nieoczekiwanie złe. Często jest to związane z wysokim skorelowaniem statystyk, co prowadzi nader często do niestabilności modelu klasyfikacyjnego. Dodatkowo mnogość parametrów sprowadza się do zwiększenia czasu oczekiwania na rezultaty klasyfikacji. Wówczas najlepszym wyjściem jest usunięcie zbędnych parametrów, dzięki czemu pozbywamy się korelacji pomiędzy parametrami, oraz optymalizujemy czas klasyfikacji.

Istnieje wiele metod redukcji wymiaru macierzy wejściowej. Do najczęściej stosowanych zalicza się:

usuwanie zbędnych parametrów, mających wysoki współczynnik wzajemnej korelacji,
komponenty zdefiniowane przez użytkownika,
analiza składowych głównych (PCA),
analiza czynnikowa,
wybór najlepszej kombinacji za pomocą algorytmów genetycznych.

W niniejszym rozdziale, przedstawiono inny sposób analizy parametrów, zaczerpnięty z [8], a szerzej opisany w [7, 22, 21].

Warunki ogólne

Warunkiem podstawowym do optymalnego wyboru statystyk, jest dobra znajomość zagadnienia jakie będziemy modelować. Dzięki wiedzy dotyczącej danego zagadnienia, możemy wstępnie wytypować wielkości mające wpływ na zachowanie wyjścia modelu. Po wstępnym ustaleniu zmiennych modelu, celem redukcji nadmiarowości statystyk należy przyjąć założenie, że wyjście (np. klasa) jest liniowo powiązana ze zmiennymi objaśniającymi. W przeciwnym wypadku gdy z jakiegoś powodu nie możemy przyjąć powyższego założenia, przedstawiony sposób nie będzie optymalny.

W pierwszej kolejności należy odpowiednio zgrupować dane w macierz pomiarów M.
(4.1)

gdzie:

m jest liczbą zmiennych objaśniających,

i = 1, 2,...n oznacza kolejne realizacje zmiennych.

Liczba realizacji n, powinna być znacznie większa od liczby zmiennych objaśniających m [8].

Celem uniknięcia niejednoznaczności sformułowań, wprowadzone zostaną następujące pojęcia:

nośnik informacji nazywa się zmienną objaśniającą,
pojemnością indywidualną nośnika informacji nazywa się wyrażenie,
(4.2)

gdzie:

h_j - jest pojemnością indywidualną j-tej zmiennej objaśniającej,

r_j - jest współczynnikiem korelacji j-tej zmiennej objaśniającej z wyjściem,

r_ij - jest współczynnikiem korelacji i-tej i j-tej zmiennej objaśniającej.

pojemnością integralną nośników informacji nazywamy sumę pojemności indywidualnych,
(4.3)

Celem zoptymalizowania zmiennych objaśniających niniejszą metodą jest takie wybranie kombinacji zmiennych objaśniających tak, aby pojemność integralna była największa. W pracy nieznacznie zmodyfikowano to założenie, gdyż uważa się, że w pewnych wypadkach pojemność integralna danej kombinacji obrazuje zbyt małą część modelu, tak więc można wówczas wybrać N kombinacji statystyk których pojemność integralna jest najwyższa. Dzięki temu przy bardzo dużej ilości zmiennych, można zoptymalizować model danych równocześnie uwzględniając większą część właściwości danego modelu.

Przykład redukcji statystyk

Przyjmijmy następującą macierz wejściową M,
(4.4)

Przyjmijmy teraz następujące założenia:

Współczynnik korelacji zmiennej wyjściowej, ze zmiennymi objaśniającymi,
(4.5)

gdzie: i=1,...,5; j=1,2,3.

Dla rozpatrywanego przykładu korelacje parametrów ze zmienną wyjściową wynoszą odpowiednio: r₁ = 0.1686, r₂ = 0.0515, r₃ = 0.7403.

Współczynnik korelacji wzajemnej zmiennych objaśniających,
(4.6)

Zauważmy, że liczba możliwych kombinacji zmiennych objaśniających wraz ze wzrostem parametrów modelu wzrasta wykładniczo. Ilość kombinacji obliczamy według wzoru K = (2ⁿ - 1), co w naszym wypadku K = 2⁸ - 1 = 7.

Tablica 4.1: Kombinacje zmiennych objaśniających

Nr Kombinacja Binarnie
K1 x₁ 001
K2 x₂ 010
K3 x₁,x₂ 011
K4 x₃ 100
K5 x₁,x₃ 101
K6 x₂,x₃ 110
K7 x₁,x₂,x₃ 111

Źródło: Badania własne

Tabela 4.1 przedstawia sposób, jaki można zaimplementować do maszynowego wyznaczania kombinacji zmiennych objaśniających. Sposób ten, jest o tyle efektywny dlatego, że opiera się na systemie dwójkowym. Odpowiednie zestawienie bitów tworzy kombinacje zmiennych objaśniających.

Dla poszczególnych kombinacji zmiennych objaśniających obliczono indywidualne pojemności nośników h_kj (k - numer kombinacji, j -numer zmiennej):

h₁₁ = r₁² = 0.0284;

h₂₂ = r₂² = 0.0026;

h₃₁ = = 0.0253; h₃₂ = = 0.0023;