www.eprace.edu.pl » sztuczna-inteligencja » Wstęp do metod ekstrakcji danych » Narzędzia Data Mining

Narzędzia Data Mining

Istnieje wiele gotowych narzędzi do eksploracji danych, poniżej przedstawione zostały opisy narzędzi, które są często wykorzystywane w eksploracji danych.

Weka

Weka (ang. Waikato Environment for Knowledge Analysis) to oprogramowanie stworzone przez uniwersytet Waikato udostępniające nie tylko graficzny interfejs użytkownika, ale również umożliwiające wykonywanie komend z linii poleceń oraz użycie we własnej aplikacji w formie biblioteki. Jest to rozwiązanie popularne i nagradzane za swoją użyteczność.

Weka nie jest przeznaczona dla niedoświadczonych użytkowników. Zapoznanie się z nią zdecydowanie ułatwia bogate wiki projektu, czy też dokumentacja. Istnieje również książka o eksploracji danych wykorzystująca w przykładach Wekę, ale nie jest ona dostępna w Internecie. Nie zmienia to jednak faktu, iż obsługa Weki wymaga sporo wiedzy z zakresu data mining oraz z samej konstrukcji tego oprogramowania.

Weka umożliwia pobranie danych z plików, czy też baz danych, wstępną ich obróbkę (np. normalizacja, dyskretyzacja), a następnie wykorzystanie ich do uczenia (np. algorytmy klasyfikacji, analizę skupień itd.). Za tą część odpowiedzialny jest moduł Weki o nazwie Explorer. Experimenter ułatwia porównywanie efektywność działania różnego rodzaju sposobów nauki. Natomiast KnowledgeFlow umożliwia zautomatyzowane przetwarzania danych z wielu źródeł i na różne sposoby poprzez skonstruowanie grafu opisującego przepływ danych [3, 22].

Rapid Miner Community Edition

RapidMiner Community Edition (znany kiedyś jako YALE) wykorzystuje m.in. wspomniane wcześniej oprogramowanie o nazwie Weka (nie jest jednak ono konieczne do poprawnego działania). Udostępnia ponad 500 operatorów (z czego 100 z aplikacji Weka) dla wszystkich głównych procedur maszynowego uczenia, włączają w to obsługę wejścia, wyjścia, przetwarzania danych oraz wizualizację. Podobnie, jak Weka, posiada on GUI oraz umożliwia wykonywanie komend z poziomu linii poleceń, udostępniając jednocześnie javowe API. Dodatkowo posiada własny system wtyczek.

RapidMiner zdecydowanie wygrywa z Weką i Rattle pod względem interfejsu użytkownika. Przyjazne ikony, dużo opisów, wszechobecne kreatory i wbudowany tutorial nie pozwalają użytkownikowi zagubić się w bogactwie opcji. W razie problemów pomocne okazać się może forum projektu na którym odpowiedzi udzielają sami jego twórcy oraz wiki, które jest niestety mocno niekompletne. Sam program dodatkowo udostępnia dwa tryby działania - eksperta i początkującego. Jednakże bez względu na jakość wykonania interfejsu wymaga on przede wszystkim wiedzy na temat samego zagadnienia eksploracji danych. Oczywiście, RapidMiner pozwala na wszystko to, co Weka oraz na jeszcze więcej. Dzięki zastosowaniu XML-a i wygodnego edytora bez problemu można tworzyć łańcuchy i drzewa operatorów, źródeł danych i innych "bloków" składających się na program wykonywany przez RapidMinera [3].

Rattle

Rattle (ang. R Analytic Tool To Learn Easily) to wieloplatformowy program napisany z wykorzystaniem języka i środowiska R oparty o bibliotekę graficzną GTK 2, jest stosunkowo prosty w użyciu i nadaje się dla początkujących użytkowników. Udostępnia następujące techniki z zakresu modelowania:

Rattle jest wykorzystywany podczas codziennej pracy przez jeden z największych australijskich zespołów zajmujących się eksploracją danych, w Australijskim Urzędzie Skarbowym. W porównaniu do Weki, czy też RapidMinera, wydaje się być naprawdę prosty i stosunkowo ubogi. Należy mieć jednak na uwadze, iż zastosowanie R poszerza zakres jego wykorzystania [3].

komentarze

Copyright © 2008-2010 EPrace oraz autorzy prac.