Celem niniejszej pracy było przedstawienie metod sztucznej inteligencji w ekstrakcji danych (data mining). Dodatkowym celem było zaprojektowanie i implementacja nowego algorytmu klasyfikacji, który mógł by konkurować z szeroko wykorzystywanymi algorytmami sztucznej inteligencji. Następnym punktem jaki należało zrobić, było wykonanie analizy porównawczej zaprojektowanego algorytmu oraz sieci immunologicznej aiNet, na przestrzeni takich problemów jak klasyfikacja i predykcja.
Struktura pracy jest następująca: W rozdziale 2 opisane zostały teoretyczne aspekty drążenia, ekstrakcji i modelowania danych. Przedstawiony został proces CRISP-DM, który jest standardem w modelowaniu danych. W rozdziale tym, omówione zostały również algorytmy wysokoprzepustowego przetwarzania danych, oraz programy które wykonują taką analizę.
W rozdziale 3 przedstawione zostało zagadnienie normalizacji danych. Opisane zostały takie formuły normalizacyjne jak min-max oraz standaryzacja. Jako ciekawostkę opisano funkcję normalizacyjną f(x) = ax + b. Omówiono problem źle znormalizowanych danych.
Rozdział 4 przedstawia techniki wstępnego przetwarzania danych. Omówiony jest problem redukcji parametrów wejściowych w danych poddawanych klasyfikacji oraz odpowiedni dobór okna czasowego w danych prognostycznych.
Rozdział 5 opisuje projekt klasyfikatora BARBARA, który jest algorytmem klasyfikacji stworzonym na potrzeby niniejszej pracy. W rozdziale tym przybliżone zostały zagadnienia teoretyczne tego klasyfikatora oraz algorytm zapisany w języku Matlab. Dodatkowo przedstawiony jest przykład realizacji algorytmu na zbiorze gatunków Irysa.
W rozdziale 6 opisany został kolejny algorytm stworzony na potrzeby pracy. Algorytm ten bazuje na biologicznym modelu rekombinacji jednoniciowego DNA u organizmów żywych. Omówiony jest tu model oraz przykład realizacji algorytmu na zbiorze gatunków Irysa.
Rozdział 7 przedstawia algorytm klasyfikacji autorstwa Leandro Nunes de Castro. Opisuje on model sztucznego systemu immunologicznego, który umożliwia klasyfikację wprowadzanych do systemu antygenów. Opisany jest przykład realizacji algorytmu na zbiorze gatunków Irysa.
Rozdział 8 przedstawia problem predykcji ciągów czasowych. Rozszerzeniem tego rozdziału jest rozdział 9 ukazujący problemy predykcji długookresowej.
W rozdziale 10 zebrane i opisane zostały wszystkie wzory, które były potrzebne przy analizie klasyfikacji i predykcji.
Rozdziały 11 oraz 12 omawiają kolejno badania porównawcze przedstawionych algorytmów w dziedzinie klasyfikacji i predykcji ciągów czasowych. W rozdziale dotyczącym klasyfikacji, wyniki zostały dodatkowo porównane z wynikami prof. W. Ducha, który badał możliwości programu GhostMiner w dziedzinie klasyfikacji danych.
Copyright © 2008-2010 EPrace oraz autorzy prac.