XML als Beschreibungssprache für Textcorpora
Magisterarbeit aus dem Jahr 2005 im Fachbereich Informatik - Allgemeines, Note: 1,3, Universität Trier, Sprache: Deutsch, Abstract: Seitdem es elektronisch gespeicherte Daten gibt, existiert das Problem der unterschiedlichen Datenformate: Die Frage nach der Art und Weise, wie die Daten gespeichert werden. Programme unterschiedlicher Hersteller, die alle einem ähnlichen Zweck dienen, benutzen dennoch zueinander nicht kompatible Datenformate. So kann es vorkommen, dass eine Textverarbeitung die Dokumente einer anderen Textverarbeitung nicht oder nur mehr schlecht als recht lesen kann. Ältere Dokumente können nicht mehr verarbeitet werden, wenn es die sie erzeugenden Programme nicht mehr gibt oder diese auf aktuellen Computer-Plattformen nicht mehr laufen. Verschärfend kommt hinzu, dass auch die verwendeten Speichermedien einer rasanten Entwicklung unterliegen – heute noch auf dem aktuellsten Stand der Technik, in wenigen Jahren schon wieder veraltet und mit den dann gängigen Geräten nicht mehr lesbar. Liesse sich letzteres Problem noch durch das ständige Umkopieren auf neue Datenträger lösen, so bleibt doch weiterhin das Problem der verschiedenen Datenformate bestehen. In der Quantitativen Linguistik werden grosse Datenbestände in Form von Text-Corpora benötigt. Diese liegen zumeist als ASCII-Dateien1 vor: In dieser Form sind sie zumindest für Menschen direkt lesbar. Allerdings enthalten die Corpora unterschiedlichste linguistische Informationen und sind dementsprechend unterschiedlich strukturiert. In der Praxis bedeutet dies dass Programme, Schnittstellen etc., die für das eine Corpus erstellt wurden, nur mit erheblichen Anpassungs- Aufwand auf andere Corpora angewandt werden können. In dieser Arbeit soll versucht werden aufzuzeigen, dass es eine Alternative gibt: Mittels der „Extensible Markup Language“, kurz XML, liesse sich ein einheitlicher Workflow für die verschiedensten Corpora erstellen.
1119555772
XML als Beschreibungssprache für Textcorpora
Magisterarbeit aus dem Jahr 2005 im Fachbereich Informatik - Allgemeines, Note: 1,3, Universität Trier, Sprache: Deutsch, Abstract: Seitdem es elektronisch gespeicherte Daten gibt, existiert das Problem der unterschiedlichen Datenformate: Die Frage nach der Art und Weise, wie die Daten gespeichert werden. Programme unterschiedlicher Hersteller, die alle einem ähnlichen Zweck dienen, benutzen dennoch zueinander nicht kompatible Datenformate. So kann es vorkommen, dass eine Textverarbeitung die Dokumente einer anderen Textverarbeitung nicht oder nur mehr schlecht als recht lesen kann. Ältere Dokumente können nicht mehr verarbeitet werden, wenn es die sie erzeugenden Programme nicht mehr gibt oder diese auf aktuellen Computer-Plattformen nicht mehr laufen. Verschärfend kommt hinzu, dass auch die verwendeten Speichermedien einer rasanten Entwicklung unterliegen – heute noch auf dem aktuellsten Stand der Technik, in wenigen Jahren schon wieder veraltet und mit den dann gängigen Geräten nicht mehr lesbar. Liesse sich letzteres Problem noch durch das ständige Umkopieren auf neue Datenträger lösen, so bleibt doch weiterhin das Problem der verschiedenen Datenformate bestehen. In der Quantitativen Linguistik werden grosse Datenbestände in Form von Text-Corpora benötigt. Diese liegen zumeist als ASCII-Dateien1 vor: In dieser Form sind sie zumindest für Menschen direkt lesbar. Allerdings enthalten die Corpora unterschiedlichste linguistische Informationen und sind dementsprechend unterschiedlich strukturiert. In der Praxis bedeutet dies dass Programme, Schnittstellen etc., die für das eine Corpus erstellt wurden, nur mit erheblichen Anpassungs- Aufwand auf andere Corpora angewandt werden können. In dieser Arbeit soll versucht werden aufzuzeigen, dass es eine Alternative gibt: Mittels der „Extensible Markup Language“, kurz XML, liesse sich ein einheitlicher Workflow für die verschiedensten Corpora erstellen.
0.0 In Stock
XML als Beschreibungssprache für Textcorpora

XML als Beschreibungssprache für Textcorpora

by Thomas Zastrow
XML als Beschreibungssprache für Textcorpora

XML als Beschreibungssprache für Textcorpora

by Thomas Zastrow

eBook1. Auflage (1. Auflage)

FREE

Available on Compatible NOOK devices, the free NOOK App and in My Digital Library.
WANT A NOOK?  Explore Now

Related collections and offers


Overview

Magisterarbeit aus dem Jahr 2005 im Fachbereich Informatik - Allgemeines, Note: 1,3, Universität Trier, Sprache: Deutsch, Abstract: Seitdem es elektronisch gespeicherte Daten gibt, existiert das Problem der unterschiedlichen Datenformate: Die Frage nach der Art und Weise, wie die Daten gespeichert werden. Programme unterschiedlicher Hersteller, die alle einem ähnlichen Zweck dienen, benutzen dennoch zueinander nicht kompatible Datenformate. So kann es vorkommen, dass eine Textverarbeitung die Dokumente einer anderen Textverarbeitung nicht oder nur mehr schlecht als recht lesen kann. Ältere Dokumente können nicht mehr verarbeitet werden, wenn es die sie erzeugenden Programme nicht mehr gibt oder diese auf aktuellen Computer-Plattformen nicht mehr laufen. Verschärfend kommt hinzu, dass auch die verwendeten Speichermedien einer rasanten Entwicklung unterliegen – heute noch auf dem aktuellsten Stand der Technik, in wenigen Jahren schon wieder veraltet und mit den dann gängigen Geräten nicht mehr lesbar. Liesse sich letzteres Problem noch durch das ständige Umkopieren auf neue Datenträger lösen, so bleibt doch weiterhin das Problem der verschiedenen Datenformate bestehen. In der Quantitativen Linguistik werden grosse Datenbestände in Form von Text-Corpora benötigt. Diese liegen zumeist als ASCII-Dateien1 vor: In dieser Form sind sie zumindest für Menschen direkt lesbar. Allerdings enthalten die Corpora unterschiedlichste linguistische Informationen und sind dementsprechend unterschiedlich strukturiert. In der Praxis bedeutet dies dass Programme, Schnittstellen etc., die für das eine Corpus erstellt wurden, nur mit erheblichen Anpassungs- Aufwand auf andere Corpora angewandt werden können. In dieser Arbeit soll versucht werden aufzuzeigen, dass es eine Alternative gibt: Mittels der „Extensible Markup Language“, kurz XML, liesse sich ein einheitlicher Workflow für die verschiedensten Corpora erstellen.

Product Details

ISBN-13: 9783638356756
Publisher: GRIN Verlag GmbH
Publication date: 03/10/2005
Sold by: Libreka GmbH
Format: eBook
Pages: 66
File size: 777 KB
Language: German
From the B&N Reads Blog

Customer Reviews