Übersicht Praktika
Homepage Fachschaft Computerlinguistik

Praktikumsbericht Eric Auer

Praktikum vom 6.1.-3.3.2003

Max-Planck-Institut für Psycholinguistik

Wundtlaan 1

6525 XD Nijmegen

Niederlande


Kurzbeschreibung der Arbeit:

Meine Aufgabe war es, ein Hilfsprogramm zur Bearbeitung von Tastaturbelegungen für ein Annotationswerkzeug zu schreiben. Das Annotationswerkzeug dient dazu, zu Audio / Video Dateien Kommentardateien zu erzeugen und zu bearbeiten. Man markiert einen Zeitraum, wählt einen "Tier" (eine Zeile) und tippt dann Text ein. Damit lassen sich z.B. gesprochene Korpora annotieren. Die entstehende Tabelle wird in "Shoebox" oder in XML abgespeichert. Mehr Informationen gibt es auf der ELAN / EUDICO Seite des MPI. Da ELAN in Java geschrieben ist, liesse es sich bei Vorhandensein geeigneter Mediaplayer für JMF auch nach MacOS und Linux portieren. Mein Hilfsprogramm ist ebenso in Java geschrieben und auch ohne ELAN verwendbar. Insbesondere ist es zum Bearbeiten von GUK (GATE Unicode Toolkit) Input Method Tastaturbelegungen gedacht. Mit durch den Anwender definierbaren Tastaturbelegungen wird die Annotation von Korpora in Fremdsprachen aller Art erleichtert.

Beschreibung des Praktikums

Bis zum eigentlichen Beginn des Praktikums blieb offen, was genau meine Aufgabe werden sollte. Ich konnte mir schliesslich vor Ort eines aus drei Themen aussuchen - langfristigere Planung wäre wohl auch möglich gewesen. Ich entschied mich für das Hilfsprogramm, welches ich "EditIM Input Method Editor" genannt habe, da es mir allgemein nützlich für linguistische Arbeit und zugleich praktisch erschien. Die anderen Themen wären der Entwurf eines Lexikon-Dateiformates (zu theoretisch?) und die Konvertierung von annotierten Videos nach HTML (zu schwer?) gewesen.

Zunächst hatte ich das Glück, kostenlos eine Weile im Gästehaus des MPI wohnen zu können. Auch ein PC mit Windows und Linux in einer Art Hiwi-Raum war bald organisiert. Die ersten 1-2 Wochen habe ich damit verbracht, die Dokumentation von ELAN zu lesen, mich in etwa mit dem Quelltext vertraut zu machen und mich schliesslich auf die javadoc Dokumentation und Quelltexte von GUK zu konzentrieren. Während dieser Zeit ist das Design meines Programmes erst mal nur auf dem Papier gereift. Ich bekam weitgehend freie Hand dabei. Von Zeit zu Zeit konnte ich mit den Entwicklern von ELAN und mit Herrn Wittenburg Rücksprache halten. Die eigentliche Entwicklung begann dann so, dass ich viel javadoc Dokumente zu Java Swing Benutzeröberflächen und Input Methods gelesen und nur wenig programmiert habe.

Zunächst habe ich lange an einer möglichst benutzerfreundlichen Oberfläche gearbeitet. Zwischendurch musste ich eine Weile bei Freunden und bei einer MPI-Mitarbeiterin (deren Mitbewohnerin auf Forschungsreise war) wohnen, wenn das Gästehaus voll war. Das MPI hat mindestens 5 Abteilungen in Nijmegen: Spracherwerb, Kognition, Sprachverstehen, Sprachproduktion, Mehrsprachigkeit (?) und - "meine" Abteilung - die technische Abteilung (erstellen Programme und Homepages, betreuen Server, usw.). Ich denke die Chancen, bei einer der Abteilungen ein Praktikum zu finden, oder einen Mitarbeiter, der ein Zimmer vermietet, sind nicht schlecht. Natürlich ist es recht beliebt, beim MPI Praktikum zu machen, wenn man Linguistik, Psychologie, KI, ... studiert, also sind manchmal alle Praktikumsthemen schon vergeben. Sehr viele Mitarbeiter sprechen Niederländisch, Englisch und Deutsch. Es ist manchmal schwer zu erraten welche Sprache gerade angebracht ist... Alle sind per du (auf NL wirkt das ganz normal) und man sollte sich ab und zu bei der fast schon offiziellen "Besprechung beim Morgenkaffee" blicken lassen, was ich leider viel zu selten gemacht habe. Durch die Wohnmöglichkeit vor Ort habe ich oft am Abend gearbeitet.

Erst im letzten Teil meines Praktikums dann die "Funktion unter der Haube" dazu: Die Möglichkeit, in verschiedenen Dateiformaten, darunter auch Yudit Unicode Editor Keymap, Tastaturbelegungen zu lesen und zu schreiben. Mein Editor zeigt dann die Zuordnung zwischen Tasten (-Kombinationen) und Zeichen des Unicode Zeichensatzes an und bietet verschiedene Bearbeitungsfunktionen. Die letzten Funktionen wurden erst ganz am Ende des Praktikums fertig, eines der geplanten Dateiformate und das Benutzerhandbuch wird noch durch andere MPI Mitarbeiter geschrieben. Natürlich habe ich trotzdem eine kleine Hilfe-Funktion bereits eingebaut und insbesondere darauf geachtet, den Code mit javadoc gut zu dokumentieren! Einige Informationen zum Editor und den Dateiformaten findet ihr hier. Da der Editor weitgehend unabängig von ELAN arbeitet, konnte ich die Entwicklung fast komplett unter Linux machen. Auch unter Windows war ein guter Programm-Editor (TextPad) installiert.

Ich denke ich habe bei diesem Praktikum viel Erfahrung in Java Programmierung gewonnen. Meine Computer-Erfahrung aus Saarbrücken hat mir geholfen und die Arbeitsumgebung am MPI war auch sehr angenehm. Als Linguist konnte ich hoffentlich meinen Editor gut an die Bedürftnisse der Linguisten anpassen, die mit dem ELAN Annotationswerkzeug arbeiten. Ich hoffe, den Editor unter dieselbe Lizenz wie GATE GUK stellen zu dürfen und damit auch Yudit Anwendern einen Gefallen zu tun. Als Krönung des Idealismus muss ich allerdings noch erwähnen dass das MPI weitgehend von Fördergeldern lebt, und mir ausser Platz im Gästehaus weder Lohn noch Reisekostenerstattung bieten konnte. Auch das BAFöG-Amt will Auslandspraktika erst ab 3 Monaten Dauer und bei langer Voranmeldung ordentlich bezuschussen. Für Praktika in den NL ist das Amt in Hannover (?) zuständig.

Für Fragen stehe ich gerne zur Verfügung. Seit 2004 kann der EditIM Input Method Editor in der Urfassung auch von meiner Seite geladen werden (GPL/LGPL Lizenz).

Eric Auer
Eric Auer, Mai 2003