Felicity Star: Beladung beschleunigt und Stopwortbehandlung eingebaut

| 17. Mai 2015

In der letzten Zeit habe ich mich hauptsächlich um die Verarbeitung der Trainingsdokumente und die Geschwindigkeit gekümmert.

Durch Umsetzung der Beladepakete von DTSX auf natives T-SQL konnte ich das Beladen der ca. 5500 Artikel inkl. Training von drei verschiedenen Kategorisierungsfunktionen von 4,5 Stunden um zwei Stunden auf 2,5 Stunden reduzieren. Die Steuerung der Beladung erfolgt weiterhin noch über DTSX Pakete. Diese werde ich erst zu einem späteren Zeitpunkt austauschen.

Im zweiten Schritt habe ich die Wortlängen der für die Indizierung der Artikel etwas eingegrenzt. Die minimale und maximale Länge ist konfigurierbar ( aktuell min =3, Max= 40, technische Maximallänge 80 Zeichen) und hat die Beladung um weitere 20 Minuten auf 2 Stunden und 10 Minuten reduziert.

Im dritten Schritt habe ich die Behandlung von Stoppwörtern eingebaut. Diese werden jetzt nicht mehr berücksichtigt. Die Wortlisten sind jeweils für englische und deutschen Sprachen vorhanden und enthalten für Englisch 572 Wörter und Deutsch 1004 Wörter.

Wer noch gute Quellen für Stopwortlisten kennt, kann sie bitte als Kommentar posten.

Nach allen drei Schritten ist die Beladung von 5500 Artikeln inkl. Training (150 Artikel) von drei verschiedenen Kategorisierungsfunktionen von 4,5 Stunden auf 2 Stunden gefallen. Das beschleunigt die Integration und Tests weitere Kategorisierungsfunktionen ungemein.