EAMT’05

0 0

Seit einem Jahr schlage ich mich mit dem Machine Translation Seminar rum. Daß ich nicht fertig werde, liegt nicht etwa daran, daß ich das Thema langweilig finde, sondern an einer Mischung aus Falschplanung, nicht-funktionierenden Tools, Anleitung-nicht-zuende-lesen und natürlich auch einem Stück Faulheit. Doch im Moment sieht es so aus, als hätte ich es endlich hinbekommen, daß alles richtig läuft.

Letzte Hürde auf dem Weg zum statistischen Ruhm war, daß ich kein richtiges Sentence-Alignment für meinen Korpus hinbekommen habe, was daran lag, daß irgendwelche Pseudo-XML-Tags verstreut im Text vorkamen. Jetzt habe ich die aber kategorisch rausgefiltert und nun habe ich einen sauberen Portugiesisch-Englischen Parallelkorpus von 948 047 Sätzen mit jeweils um die 26 Millionen Tokens. Das sollte ausreichen, um damit statistische Sprachverarbeitung zu betreiben :-D

Nach der Euphorie über das Gelingen dieses eigentlich völlig banalen Teils kommt auch schon wieder die Leere. Im Durschnitt dauert ein Training in eine Richtung (also pt->en) um die 16-20 Stunden. Nur gut, daß ich das auf einem der Rechner am DFKI machen kann! Jetzt heißt es erstmal warten.

0 Responses to “EAMT’05”


  1. No Comments

Leave a Reply




Flickr

RSS
Der Boss singt mit einem kleinen Jungen aus dem PublikumBoss-PanoramaDer Boss!DarkoDarko

Twitter

    digg