Warning: A skin using autodiscovery mechanism, boinc_poland, was found in your skins/ directory. The mechanism will be removed in MediaWiki 1.25 and the skin will no longer be recognized. See https://www.mediawiki.org/wiki/Manual:Skin_autodiscovery for information how to fix this. [Called from Skin::getSkinNames in /data/www/www.boincatpoland.org/htdocs/wiki/includes/Skin.php at line 74] in /data/www/www.boincatpoland.org/htdocs/wiki/includes/debug/Debug.php on line 303

Warning: A skin using autodiscovery mechanism, fratman_enhanced, was found in your skins/ directory. The mechanism will be removed in MediaWiki 1.25 and the skin will no longer be recognized. See https://www.mediawiki.org/wiki/Manual:Skin_autodiscovery for information how to fix this. [Called from Skin::getSkinNames in /data/www/www.boincatpoland.org/htdocs/wiki/includes/Skin.php at line 74] in /data/www/www.boincatpoland.org/htdocs/wiki/includes/debug/Debug.php on line 303

Strict Standards: Declaration of Skinboinc_poland::initPage() should be compatible with Skin::initPage(OutputPage $out) in /data/www/www.boincatpoland.org/htdocs/wiki/skins/boinc_poland.php on line 5
DistributedDataMining – Wiki B@P Wspieramy naukę

DistributedDataMining

Z Wiki B@P

distributedDataMining

DistributedDataMining (dDM) jest nazwą projektu przetwarzania rozproszonego, który zajmuje się eksploracją danych i uczeniem maszynowym. Projekt używa infrastruktury BOINC do rozprowadzania zadań pomiędzy komputerami.

Wszystkie aplikacje projektu używają otwartego oprogramowania RapidMiner. Ten pakiet przetwarzania danych - stworzony na uniwersytecie w Dortmund - dostarcza różnych metod uczenia maszynowego dla celów analizy danych. RapidMinder dostarcza wygodny mechanizm wtyczek, do łatwego dodawania nowych algorytmów. To, oraz moc obliczeniowa platformy BOINC, stanowi idealną podstawę do naukowej, rozproszonej, eksploracji danych. dDM wykorzystuje tę podstawę, i stanowi metaprojekt dla różnych rodzajów aplikacji uczenia maszynowego.

Poniżej znajdziecie listę podprojektów i powiązanych z nimi publikacji naukowych.


Prognozy szeregów czasowych

Przewidywanie cen akcji (aktywny)

Część naszych badań jest poświęcona analizie szeregów czasowych. Nasza uwaga skupiona jest na przewidywaniu Ekonomicznych szeregów czasowych takich jak DAX i Dow Jones. Na początku, skupiliśmy się nad aplikacją oparta na sztucznej sieci neuronów żeby prognozować szeregi czasowe. Dokładny opis tego podejścia, projekt ustawień eksperymentalnych a także rezultaty są zaprezentowane w [5]. Później, zastosowaliśmy wspomagające maszyny wektorowe by uniknąć zbytniej komplikacji obliczeniowej sieci neuronowych. Wynikowe prognozy są równie imponujące, nawet jeśli niezbędne koszty obliczeniowe ogą być obniżone znacząco. W 2008 opublikowaliśmy dwa odpowiednie opracowania [6] i [7]. Rozszerzyliśmy nasz badania, poprzez użycie różnych algorytmów uczących by określić ich dokładność w przewidywaniu cen akcji. Po przeanalizowaniu uzyskanych wyników, dokonaliśmy dwóch ważnych odkryć:

  1. Wpływ algorytmów uczących jest znacznie mniejszy niż oczekiwano, lecz w zamian
  2. Czas nauki ma większy wpływ na jakość prognozy

Aż do teraz, czasowe efekty są rzadko opisywane w literaturze, skupiliśmy się na badaniu tych aspektów czasowych w analizie szeregów czasowych.

Analiza sieci społecznościowych

Tanja Falkowski zaproponowała DenGraph - oparty na gęstości algorytm grupujący [1]. Ten algorytm jest idealny (poza wieloma innymi zastosowaniami) do analizy sieci społecznych. Poniższe badania były częścią jej pracy doktorskiej opublikowanej w formie książki

Czasowa dynamika platformy muzycznej Last.fm (tymczasowo zawieszony)

W tej aplikacji zastosowaliśmy DenGraph-IO do wykrywania i obserwacji zmian w zachowaniach użytkowników Last.fm przez okres dwóch lat. Celem było zaobserwowanie czy zaproponowana technika grupowania wykrywa znaczące społeczności i ewolucje. [2], [3].

Czasowa ewolucja zbiorowości wśród danych e-mailowych Enronu (Zakończony)

Upadłość Enron, firmy w USA nagradzanej 6 lat z rzędu przez czasopismo Furtune jako "najbardziej innowacyjne przedsiębiorstwo amerykańskie", spowodowała jedno z największych bankructw w historii Stanów Zjednoczonych. By zbadać sprawę, zestaw danych około 1,5 miliona e-maili wysłanych lub otrzymanych przez pracowników Enron, został opublikowany przez Federalną Komisję Regulacji Energetyki. Użyliśmy mocy obliczeniowej dDM do analizy czasowej ewolucji zgrupowań wyekstrahowanych z tych e-maili [4].


Referencje

  1. Falkowski T. [ http://www.nicoschlitter.de/node/9754 Community Analysis in Dynamic Social Networks]. Goettingen: Sierke Verlag; 2009.
  2. Schlitter N, Falkowski T. Mining the Dynamics of Music Preferences from a Social Networking Site. In: Proceedings of the 2009 International Conference on Advances in Social Network Analysis and Mining. Athens: IEEE Computer Society; 2009. p. 243-8.
  3. Falkowski T, Schlitter N. Analyzing the Music Listening Behavior and its Temporal Dynamics Using Data from a Social Networking Site. Zurich; 2008.
  4. Falkowski T. Community Analysis in Dynamic Social Networks. Goettingen: Sierke Verlag; 2009.
  5. Schlitter N. Analyse und Prognose ökonomischer Zeitreihen: Neuronale Netze zur Aktienkursprognose. Saarbrücken: VDM Verlag Dr. Müller; 2008.
  6. Schlitter N. A Case Study of Time Series Forecasting with Backpropagation Networks. In: Steinmüller J, Langner H, Ritter M, Zeidler J, editors. 15 Jahre Künstliche Intelligenz an der TU Chemnitz. Chemnitz: Techn. Univ. Chemnitz, Fak. für Informatik; 2008. p. 203-17. (Chemnitzer Informatik-Berichte).
  7. Möller M, Schlitter N. Analyse und Prognose ökonomischer Zeitreihen mit Support Vector Machines. In: Steinmüller J, Langner H, Ritter M, Zeidler J, editors. 15 Jahre Künstliche Intelligenz an der Fakultät für Informatik. Chemnitz: Techn. Univ. Chemnitz, Fak. für Informatik; 2008. p. 189-201. (Chemnitzer Informatik-Berichte).

Przydatne linki

Strona główna projektu

Distributed data mining na forum BOINC@Poland

Wiadomości DistributedDataMining