< Extras | Dateisystem durchsuchen >

Wikipedia durchsuchen

Eine wichtige Funktion des Graph-Information-Managers ist die Fähigkeit, Inhalte aus der Wikipedia zu verarbeiten. Die Wikipedia hat sich nicht nur zu einem ernstzunehmenden Informationsmedium entwickelt. Wie eine Studie des Pew Research Centers zeigt, ist die Wikipedia inzwischen zu einem der beliebtesten und wichtigsten Informationsmedien geworden (http://pewresearch.org/). Der vollständige Bericht steht unter: http://www.pewinternet.org/pdfs/PIP_Wikipedia07.pdf zum Download bereit.

Im Graph-Information-Manager werden nicht nur die textuellen Informationen der Wikipedia entnommen, sondern auch die Verknüpfungen zwischen den Themen korrekt abgebildet. Zudem besteht die Möglichkeit, die Kategorien der Wikipedia-Seiten als Attribute zu übernehmen. Mittels dieser Funktion werden zwei unterschiedliche Ziele realisiert.

Zum einen wird dem Nutzer des Graph-Information-Manager die Möglichkeit an die Hand gegeben, grundlegende Informationen zu dem von ihm zu bearbeitenden Thema in kürzester Zeit in den GIM-Pool einzufügen. Zum anderen schafft der Wikipedia-Crawler die Möglichkeit, fast assoziativ neue Zusammenhänge zu erkennen und einen versiegenden, assoziativen Strom wieder anzustoßen, in dem aus der Wikipedia neue Themen und Stichworte im Umfeld des zu bearbeitenden Themas gefunden werden.

Um dem Nutzer diese Funktionalität jeweils entsprechend seines jeweiligen Arbeitsstandes zu eröffenen, gibt es drei Wege, den Wikipedia-Crawler zu starten:

Alle Wikipedia-Crawls liefern einen separaten GIM-Pool, welcher als separater Pool abgespeichert wird. Die Konsequenz ist einerseits, dass sich der von Ihnen zur Zeit bearbeitete GIM-Pool nach Beendigung des Crawls nicht verändert hat.
Dies geschieht erst durch den zweiten Bearbeitungsschritt, das Zusammenführen des Crawlergebnisses. Das Verfahren wirkt auf den ersten Blick etwas umständlich, hat aber zwei Vorteile:
Zum einen können Sie das Crawl-Ergebnis völlig separat bearbeiten und sich vergewissern, dass nur gewünschte Informationen tatsächlich in den von Ihnen bearbeiteten GIM-Pool einfließen. Zum anderen steht so das Crawlergebnis auch später noch - ggf. für andere GIM-Pools - zur Verfügung.

Wird der Wikipedia Crawl über das Menü oder den HTML-Editor aufgerufen, so wird der nachstehend abgebildete Wikipedia Crawl Dialog sichtbar.



Wikipedia Crawl Dialog


Zu den Dialogelementen im Einzelnen:

In der Themenliste werden die zu durchsuchenden Wikipedia-Seiten bestimmt. So weist der Begriff Concept-Map auf die Website http://de.wikipedia.org/wiki/Concept-Map hin. Durch Drücken des Plus-Buttons kann ein neues Thema in die Liste eingetragen werden, durch Drücken der Minus-Buttons wird das zur Zeit ausgewählte Thema gelöscht.

Hinweis: Wenn Sie Themen über den Plus-Button hinzufügen, beachten Sie bitte, dass Sie nur den Begriff hinter http://de.wikipedia.org/wiki/ eingeben.

Beispiel: Sie wollen den Artikel über August den Starken crawlen. Die Url lautet: http://de.wikipedia.org/wiki/August_der_Starke. Sie verwenden aber nur August_der_Starke. (Vergessen Sie nicht die Unterstriche als Ersatz der Leerzeichen.)

Warnung
Bitte stellen Sie sicher, dass das von Ihnen angegebene Thema in dieser Form auch in der Wikipedia existiert. Der Crawler kann dies nicht überprüfen und liest ggf. die standardmäßig angebotenen Suchmasken der Wikipedia bei einem unbekannten Begriff ein. Wir empfehlen Ihnen, die Wikipedia in einem separaten Browser-Fenster zu öffnen, die Seiten zu besuchen, welche Sie als Ausgangspunkt wählen wollen und dann das Ende der URL-Adresse mittels STRG-C aus der Eingabezeile Ihres Browsers zu kopieren und mittels STRG-V in den kleinen Eingabe-Dialog des Plus-Buttons einzutragen.

In der Zeile Zieldatei wird der Pfad des neu zu erstellenden GIM-Pools angegeben: Soll das Crawl-Ergebnis sofort eingelesen werden, müssen Sie sich diesen Pfad merken.

Die beiden folgenden Felder bestimmen, wie die Themen der Themenliste in dem zu erstellenden GIM-Pool "zusammengehalten werden" sollen. Im ersten Feld wird in der Regel der Name eines vorhandenen Themas angegeben, an das die Crawlergebnisse angehängt werden sollen. Im zweiten Feld kann der Name eines weiteren zu schaffenden Themas angegeben werden, wenn man die Crawl-Ergebnisse über ein gesondertes Thema erreichen möchte. Hat man etwa ein bereits verknüpftes und bearbeitetes Thema "Mind Map Allgemein", so kann man den Wunsch haben, die aus der Wikipedia gecrawlten Ergebnisse nur über "Mind Map Allgemein WikiErgebnisse" zu verknüpfen.

Wird hier nichts eingegeben, so wird ein Thema mit dem Namen "System" angelegt, mit dem alle in der Liste befindlichen Themen verknüpft werden.

Mit der Auswahlbox Attribute generieren entscheidet man, ob die den jeweiligen Wikipedia-Seiten zugeordneten Kategorien in dem zu schaffenden GIM-Pool als Attribute angelegt und entsprechend verknüpft werden sollen.

Hinweis: Diese Option ist mit Bedacht in der Standardeinstellung auf "aus" gesetzt. Unsere Erfahrungen zeigen, dass die Kategorien in der Wikipedia nicht immer mit der erforderlichen Zurückhaltung und Disziplin vergeben werden. Dies kann schnell dazu führen, dass Sie in einem solchen Pool mehr Kategorien als Themen haben. Dies wiederum kann das gesamte Kategoriensystem unübersichtlich machen.

Die beiden folgenden Eingabeoptionen geben Ihnen die Möglichkeit, Stoppdateien zu definieren. Im einen Fall werden spezifische Themennamen ausgeschlossen, im anderen Fall wird über die Kategorien der Wikipedia definiert, welche Themen aufgenommen werden sollen und welche nicht. Insbesondere letztgenannte Funktion ist noch experimentell und wird in den kommenden Updates des Graph-Information-Manager erweitert und besser unterstützt werden. Durch Ok oder Abbrechen wird der Dialog abgeschlossen.

Haben Sie Ok gedrückt, öffnet sich ein kleiner Startdialog mit Fortschrittsanzeige.



Startdialog


Erst durch das Drücken der Starttaste wird der Crawl-Vorgang tatsächlich gestartet. Sie können während eines solchen Crawls an Ihrem GIM-Pool problemlos weiterarbeiten, da das Crawlergebnis (wie bereits erwähnt) in eine separate Datei geschrieben wird.

< Extras | Dateisystem durchsuchen >