What’s in an Embedding? Analyzing Word Embeddings through Multilingual Evaluation

URN urn:nbn:de:gbv:18-228-7-2130
URL
Dokumentart: InProceedings (Aufsatz / Paper einer Konferenz etc.)
Institut: Fachbereich Informatik
Sprache: Englisch
Erstellungsjahr: 2015
Publikationsdatum:
Originalveröffentlichung: EMNLP 2015: Conference on Empirical Methods in Natural Language Processing - September 17-21, 2015 - Lisbon, Portugal (2015)
Freie Schlagwörter (Deutsch): Word Embeddings , Evaluation
Freie Schlagwörter (Englisch): Word Embeddings , Evaluation
DDC-Sachgruppe: Informatik
BK - Klassifikation: 54.75

Kurzfassung auf Englisch:

In the last two years, there has been a surge of word embedding algorithms and research on them. However, evaluation has mostly been carried out on a narrow set of tasks, mainly word similarity/relatedness and word relation similarity and on a single language, namely English. We propose an approach to evaluate embeddings on a variety of languages that also yields insights into the structure of the embedding space by investigating how well word embeddings cluster along different syntactic features. We show that all embedding approaches behave similarly in this task, with dependency-based embeddings performing best. This effect is even more pronounced when generating low dimensional embeddings.

Hinweis zum Urherberrecht

Für Dokumente, die in elektronischer Form über Datenenetze angeboten werden, gilt uneingeschränkt das Urheberrechtsgesetz (UrhG). Insbesondere gilt:

Einzelne Vervielfältigungen, z.B. Kopien und Ausdrucke, dürfen nur zum privaten und sonstigen eigenen Gebrauch angefertigt werden (Paragraph 53 Urheberrecht). Die Herstellung und Verbreitung von weiteren Reproduktionen ist nur mit ausdrücklicher Genehmigung des Urhebers gestattet.

Der Benutzer ist für die Einhaltung der Rechtsvorschriften selbst verantwortlich und kann bei Mißbrauch haftbar gemacht werden.