FelicityStarDB

FelicityStarDB- Textmining und -clustering mit dem SQL Server

Felicity Star DB ist eine quelloffene Datenbank, die verschiedene einfache Textmining und Textclustering Funktionen beinhaltet. Ziel des Projektes ist eine flexible Plattform zu haben, um weitere Funktionen für Textmining und –clustering zu integrieren. Dabei ist die Datenbank auch bewusst zum Experimentieren gedacht.

FelicityStarDB kann auch mit großen Datenmenge umgehen. Aktuell verarbeite ich je eine Kopie von Wikipedia in Deutsch und Englisch (zusammen ca. 20 Mio. Artikel mit 90 GB).

Die technische Plattform stellt der SQL Server dar (ab Version 2008). Dabei werden alle Funktionen wie SSIS (für die Ablaufsteuerung), SSRS (Reports und Dateneingabe!) jedoch kein SSAS verwendet. Es wird zum Implementierung bis auf eine Ausnahme ausschließlich T-SQL verwendet. Die Ausnahme stellt die RegEx Bibliothek dar, die auf .Net basiert.

Aktuell bin ich noch am der Klärung, unter welche Lizenz ich das Tool freigebe. Geplant ist AGPL, jedoch habe ich noch eine Komponente im Code, für die ich der Status noch klären muss. Daher steht der Download noch nicht zur Verfügung.