Klassifikation von Dokumenten durch Text Mining

URL
Dokumentart: Bachelor Thesis
Institut: Department Informatik
Sprache: Deutsch
Erstellungsjahr: 2009
Publikationsdatum:
SWD-Schlagwörter: Maschinelles Lernen
Freie Schlagwörter (Deutsch): GATE
DDC-Sachgruppe: Informatik

Kurzfassung auf Deutsch:

Text Mining ist ein relativ junges Forschungsgebiet, welches Methoden aus anderen Teilgebieten der Informatik verbindet, um den Menschen dabei zu unterstützen mit der heutigen Informationsflut zurechtzukommen. Diese Informationsflut ist durch die enorme Zunahme von online verfügbaren Dokumenten, sei es Internet oder Intranet, entstanden. Mit dem aus dem Information Retrieval bekannten Verfahren kann dieses Problem nicht alleine gelöst werden. Das Text Mining versucht Verfahren zu entwickeln, die über das reine Auffinden von Dokumenten über Suchanfragen hinausgehen. Es sollen statt dessen mehr inhaltliche Textanalysen erfolgen, die den Nutzer mit für ihn relevanten Informationen versorgen. In dieser Arbeit soll ein Überblick über das Text Mining und seine Aufgabenstellungen gegeben werden. Das Hauptaugenmerk liegt dabei auf einem speziellen Teilbereich des Text Minings, der in der Klassifikation von Dokumenten besteht. Eine Anwendung des Themas erfolgt im praktischen Teil der Arbeit, in der mit Hilfe von Verfahren des maschinellen Lernens, Filmbeschreibungen ihren entsprechenden Genres zugeordnet werden sollen.

Kurzfassung auf Englisch:

Text mining is a comparatively recent field of research, which combines methods from other sub-fields of computer science in order to help men coping with the crisis of information overload. This crisis emerged from the huge increase of documents, which are avaiable on the Web or intranet. This problem can not be solved solitary by the techniques of information retrieval. Text mining tries to develop methods which go beyond the locating of documents by queries. Instead of that text mining focuses more on text analysis with regards to contents,in order to provide relevant information for users. This paper ought to provide an overview of text mining and its tasks. The main focus of attention is the classification of documents, which is a specific subdomain of text mining. The classification of movie descriptions by means of there genre is an implementation of this subject and part of.this subject and part of. An Implementation of this subject takes place in some experiments classifying documents by means of their genre, with the help of machine learning.

Hinweis zum Urherberrecht

Für Dokumente, die in elektronischer Form über Datenenetze angeboten werden, gilt uneingeschränkt das Urheberrechtsgesetz (UrhG). Insbesondere gilt:

Einzelne Vervielfältigungen, z.B. Kopien und Ausdrucke, dürfen nur zum privaten und sonstigen eigenen Gebrauch angefertigt werden (Paragraph 53 Urheberrecht). Die Herstellung und Verbreitung von weiteren Reproduktionen ist nur mit ausdrücklicher Genehmigung des Urhebers gestattet.

Der Benutzer ist für die Einhaltung der Rechtsvorschriften selbst verantwortlich und kann bei Mißbrauch haftbar gemacht werden.