Die ewige Suche nach Informationen
Fachartikel von Stephan Gruber
Enterprise Search, Semantic, Text-Mining …. Wie finden wir Informationen in der Zukunft? Das Problem ist allgegenwärtig, nach der Eingabe einen Suchwortes oder einer Kombination erhalten wir Tausende von Ergebnissen. Das ist die Last der Digitalisierung und des weltumspannenden Internets, wir verfügen über nahezu unendliche Informationsquellen, eine Erschließung ist mit traditionellen Methoden nicht zu schaffen.
Die großen Suchmaschinen erzeugen im Rahmen eines Analyseprozesses einen Wortindex und wichten die Ergebnisse nach mehr oder weniger geheimen Algorithmen. Das größte Problem stellt die mit diesem Ansatz verbundene Ergebniszahl dar, tausende von Treffern undurchsichtig sortiert. Eine themenbezogenen Darstellung lässt der Analyseprozess nicht zu, Grund ist die ausschließliche Konzentration auf Buchstabenfolgen (Wörter). In anderen Verfahren, wie Spezialsuchmaschinen oder Unternehmenslösungen, werden Vergleichsbasen sogenannte ontologische Listen eingesetzt. An diesen Modellen der künstlichen Intelligenz wird schon lange gearbeitet, die ältesten Vertreter Cyc und WordNet stammen aus den 80iger Jahren und werden heute noch genutzt. Bei solchen ontologischen Verfahren, handelt es sich vereinfacht um Wortlisten sinntragender Begriffe, überwiegend sind dies Substantive. Stehen diese Worte nun in einer Verbindung miteinander werden sie verknüpft und statistisch bewertet, so werden die Begriffe Pfarrer und Kirche miteinander häufig genutzt, Bahnhof und Bartkartoffeln eher weniger. Durch diese Verknüpfungen entsteht nun ein Netz, welches als Referenz bzw. Vergleichsbasis dient. Nun wird die zu analysierende Zahl von Textdokumenten mit dieser Referenz verglichen und das Ergebnis in einer Datenbank abgelegt. Gibt nun der Anwender einen Suchbegriff ein, können durch benachbarten Verknüpfungspunkte Themensortierungen durchgeführt werden. Im Ergebnis zeigen sich deutlich weniger Treffer. Heute arbeiten nahezu alle Wissensmanagementsysteme für Unternehmen nach diesem Prinzip. Das Problem besteht jedoch darin, dass die Vergleichsbasis für jedes Unternehmen oder Fachgebiet optimiert und ständig gepflegt und erweitert werden muss. Dies, auch als redaktioneller Aufwand bezeichnet, treibt die Kosten für die Systeme in die Höhe. Hier ist die Ursache zu suchen, weshalb derartige Produkte nur in Großkonzernen oder für spezielle Fachgebiete verbreitet sind. Werden die Listen gut erstellt und gepflegt, können Suchzeiten deutlich reduziert werden. Allerdings ist der manuelle Aufbau von solchen Netzstrukturen keine Option für die Zukunft, sie kann die täglich aufs Neue entstehende Dokumentflut nicht zu vertretbaren Kosten erschließen.
Einen recht neuer Ansatz stellt die Textanalyse mittels TextMining Verfahren dar. Als Ausgangsbasis sind „nur“ lesbare Texte erforderlich. Diese werden ausschließlich auf Basis mathematischer Verfahren analysiert. Das begrenzende Moment stellt hier die zur Verfügung gestellte Rechenleistung im Analyseprozess dar. Aus welchen Gründen funktioniert eine solche automatische Sprachverarbeitung überhaupt? Forschungen der letzten zwanzig Jahre haben gezeigt, dass auch die Verwendung der Sprache Gesetzmäßigkeiten, wie es diese beispielweise auch in der Physik gibt, folgt. Damit werden diese mathematisch beschreibbar und können programmtechnisch umgesetzt werden. Ein erheblicher Unterschied besteht auch darin, dass das gesuchte Wort nicht mehr isoliert sondern mit seinen „Nachbarn“ erfasst und analysiert wird. Ein erstes für Unternehmen und Einrichtungen verfügbares Programm trägt den Namen „Xinoah“, eine Wortschöpfung Xi dem Begriff von Zeichen und noah abgeleitet von der Arche Noah – also sinngemäß sich in der Flut der Zeichen zurecht zu finden. Das Programmsystem wurde bereits mit drei Innovationspreisen ausgezeichnet und liefert, allein basierend auf automatische Verfahren, beeindruckende Ergebnisse.
Nun in der Zukunft bedeutet dies zunächst die Möglichkeiten der automatischen Sprachverarbeitung auszunutzen und in der Folge eventuell redaktionell nachzubearbeiten. Diese Nachbearbeitung verbessert das Trefferbild weiter und basiert üblicherweise auf Wortlisten. Beide Methoden schließen sich also nicht gegeneinander aus, sondern ergänzen sich. Auch wenn die Technologie verfügbar scheint, werden noch einige Jahre ins Land gehen bis wir im Internet eine kostenfreie Suchmaschine, basierend auf diesen Technologien finden werden. Dagegen ist wirtschaftliches Potential für eine effektivere Suche in Unternehmen und Verwaltungen schon heute gegeben, eine Studie belegt, dass an wissenszentrierten Arbeitsplätzen und diese stellen heute bereits die größte Gruppe, wöchentlich ca. 3-4 Stunden durch nicht gefundenen oder neu erstellten, aber vorhandenen Content vergeudet werden. Es wäre wünschenswert, dass diese Technologien möglichst schnell verfügbar werden, der Nutzer wird es honorieren.