Fulltext available Open Access
License: 
Title: Klassifikation von Dokumenten durch Text Mining
Language: German
Authors: Ehlers, Carsten 
Keywords: GATE
Issue Date: 20-Oct-2009
Abstract: 
Text Mining ist ein relativ junges Forschungsgebiet, welches Methoden aus anderen Teilgebieten der Informatik verbindet, um den Menschen dabei zu unterstützen mit der heutigen Informationsflut zurechtzukommen. Diese Informationsflut ist durch die enorme Zunahme von online verfügbaren Dokumenten, sei es Internet oder Intranet, entstanden. Mit dem aus dem Information Retrieval bekannten Verfahren kann dieses Problem nicht alleine gelöst werden. Das Text Mining versucht Verfahren zu entwickeln, die über das reine Auffinden von Dokumenten über Suchanfragen hinausgehen. Es sollen statt dessen mehr inhaltliche Textanalysen erfolgen, die den Nutzer mit für ihn relevanten Informationen versorgen. In dieser Arbeit soll ein Überblick über das Text Mining und seine Aufgabenstellungen gegeben werden. Das Hauptaugenmerk liegt dabei auf einem speziellen Teilbereich des Text Minings, der in der Klassifikation von Dokumenten besteht. Eine Anwendung des Themas erfolgt im praktischen Teil der Arbeit, in der mit Hilfe von Verfahren des maschinellen Lernens, Filmbeschreibungen ihren entsprechenden Genres zugeordnet werden sollen.

Text mining is a comparatively recent field of research, which combines methods from other sub-fields of computer science in order to help men coping with the crisis of information overload. This crisis emerged from the huge increase of documents, which are avaiable on the Web or intranet. This problem can not be solved solitary by the techniques of information retrieval. Text mining tries to develop methods which go beyond the locating of documents by queries. Instead of that text mining focuses more on text analysis with regards to contents,in order to provide relevant information for users.
This paper ought to provide an overview of text mining and its tasks. The main focus of attention is the classification of documents, which is a specific subdomain of text mining. The classification of movie descriptions by means of there genre is an implementation of this subject and part of.this subject and part of. An Implementation of this subject takes place in some experiments classifying documents by means of their genre, with the help of machine learning.
URI: http://hdl.handle.net/20.500.12738/9734
Institute: Department Informatik 
Type: Thesis
Thesis type: Bachelor Thesis
Advisor: Neitzke, Michael 
Referee: Sarstedt, Stefan 
Appears in Collections:Theses

Files in This Item:
File Description SizeFormat
main.pdf559.78 kBAdobe PDFView/Open
Show full item record

Page view(s)

435
checked on Mar 28, 2024

Download(s)

327
checked on Mar 28, 2024

Google ScholarTM

Check

HAW Katalog

Check

Note about this record


Items in REPOSIT are protected by copyright, with all rights reserved, unless otherwise indicated.