Home Linguistics & Semiotics Automatische Evaluation der Humanübersetzung: BLEU vs. METEOR
Article Open Access

Automatische Evaluation der Humanübersetzung: BLEU vs. METEOR

  • Hye-Yeon Chung EMAIL logo
Published/Copyright: May 12, 2020
Become an author with De Gruyter Brill

Abstract

Human evaluation (HE) of translation is generally considered to be valid, but it requires a lot of effort. Automatic evaluation (AE) which assesses the quality of machine translations can be done easily, but it still requires validation. This study addresses the questions of whether and how AE can be used for human translations. For this purpose AE formulas and HE criteria were compared to each other in order to examine the validity of AE. In the empirical part of the study, 120 translations were evaluated by professional translators as well as by two representative AE-systems, BLEU/ METEOR, respectively. The correlations between AE and HE were relatively high at 0.849** (BLEU) and 0.862** (METEOR) in the overall analysis, but in the ratings of the individual texts, AE and ME exhibited a substantial difference. The AE-ME correlations were often below 0.3 or even in the negative range. Ultimately, the results indicate that neither METEOR nor BLEU can be used to assess human translation at this stage. But this paper suggests three possibilities to apply AE to compromise the weakness of HE.

1 Einführung

Eine Übersetzung kann zu verschiedenen Zwecken evaluiert werden, etwa um feststellen zu können, welchen Fortschritt die Studierenden im Lauf des Übersetzungskurses gemacht haben oder wie gut Berufsübersetzer in Wirklichkeit sind. Die Evaluation kann auch als Entscheidungsgrundlage dienen, um geeignete Kandidaten für einen Übersetzerpreis auszuwählen.

Übersetzungsbewertungen haben zwar vielfältige Anwendungsbereiche, sind aber äußerst zeit- und arbeitsaufwändig, sodass sie nicht so oft durchgeführt werden können, wie eigentlich erforderlich wären.[1] Hinzu kommt, dass die Ergebnisse der Bewertungen nicht immer konsistent sind. Je nachdem, zu welchem Zweck die Evaluation durchgeführt wird, welchen beruflichen Hintergrund der/die Evaluator(in) hat, nach welchen Kriterien er/sie die Übersetzung bewertet oder auch ob er/sie die Bewertungskriterien konsequent einhält, können die Evaluationsergebnisse unterschiedlich ausfallen. Diese Gefahr ist umso größer, wenn die Qualitätsunterschiede der zu bewertenden Übersetzungen gering sind.

Den Bewertungsergebnissen vertraut man trotzdem, wenn die Evaluation von einem „Experten“, d. h. jemandem, der viel Erfahrungen sowohl mit Übersetzungen als auch mit Übersetzungsbewertungen hat, durchgeführt wird. In diesem Fall geht man davon aus, dass die Evaluation eines Experten über einen gewissen Grad an Validität und Reliabilität verfügt. Die Bewertungsergebnisse der Experten sind in der Tat relativ konstant und weisen untereinander einen hohen Korrelationswert auf (vgl. Waddington 2001 a; Lai 2011; Kunilovskaya 2015). Selbst Experten haben jedoch Schwierigkeiten, die Qualität eines Textes in Zahlen ausdrücken zu müssen. Der hohe Arbeitsaufwand stellt für sie ein weiteres Problem dar.

Die drei genannten Kriterien (Validität, Reliabilität und Praktikabilität) bilden die Grundlage von zahlreichen Bewertungsmodellen: Die Qualitätsbewertungsmodelle, die von vertrauenswürdigen Institutionen wie etwa NAATI und CTTIC entwickelt wurden, haben relativ klare Kriterien und konkrete Anweisungen, sodass zumindest die ersten beiden Kriterien (Validität und Reliabilität) erfüllt werden können. Selbst die Bewertung nach einem bewährten Modell kostet aber viel Zeit und Arbeit.

Die vorliegende Arbeit sucht den Lösungsansatz dieser Problematik in der automatischen Evaluation. Sie wurde entwickelt, um die Qualität der maschinellen Übersetzung „einfach“ (d. h. praktikabel) und „objektiv“ (d. h. reliabel) zu bewerten. Es gibt zahlreiche Methoden der automatischen Evaluation, die auf unterschiedlichen theoretischen Modellen basieren (siehe 2.1). Bei allen Methoden wird die Qualität einer Übersetzung nach einer festgelegten mathematischen Formel berechnet.

In dieser Arbeit werden aus der Vielzahl der maschinellen Evaluationssysteme BLEU und METEOR ausgewählt. BLEU (Bilingual Evaluation Understudy), entwickelt 2002, ist trotz mancher Kritik immer noch das meist genutzte Bewertungssystem (es wird auch verwendet beim neuen „Google Translate System“, um die Leistungen von GNMT zu testen, vgl. Wu et al. 2016). METEOR (Metric for Evaluation of Translation with Explicit Ordering) wurde 2005 entwickelt, um bei den „Schwachstellen“ von BLEU nachzubessern. Obwohl BLEU und METEOR sich in ihren Algorithmen voneinander unterscheiden, sind beide Systeme formbasierte Bewertungsmodelle und deshalb gut miteinander vergleichbar.

Das Ziel dieser Arbeit liegt darin, zu überprüfen, ob und wie die für die maschinelle Übersetzung entwickelten automatischen Evaluationssysteme BLEU und METEOR auch bei Übersetzungen von Menschen angewendet werden können. Um diese Frage zu beantworten, müssen BLEU und METEOR zuerst auf ihre Validität überprüft werden. Im praktischen Teil werden menschliche Übersetzungen jeweils von BLEU und METEOR sowie von professionellen Evaluatoren bewertet und der Korrelationswert zwischen diesen Bewertungen (BLEU-Mensch, METEOR-Mensch) errechnet.

2 Theoretisches Konstrukt

2.1 Automatische Evaluation (AE)

Die Idee, die vielen automatischen Evaluationssystemen zugrunde liegt, ist relativ einfach. Die maschinell erstellten Übersetzungen werden mit den Humanübersetzungen („Referenzübersetzungen“ genannt) verglichen und nach dem Grad der Ähnlichkeit bzw. Abweichung unterschiedlich bewertet. Die Ähnlichkeit zwischen beiden Übersetzungen wird oft durch die Anzahl der Wortübereinstimmungen, also formbasiert, beurteilt. BLEU und METEOR sind repräsentative Beispiele hierfür.

Da die Bedeutung der Ausdrücke aber abstrakter Natur ist und ein ausgangssprachliches Wort unter Umständen mit unterschiedlichen zielsprachlichen Wörtern übersetzt werden kann, ist die Bewertung durch einen rein formbasierten Vergleich nicht die ideale Methode. Deshalb werden formbasierte Systeme in der Regel durch weitere Maßnahmen ergänzt: Statt einer einzigen Referenzübersetzung werden etwa mehrere Humanübersetzungen herangezogen (BLEU), oder die Anzahl der Wortübereinstimmungen wird durch die Berücksichtigung der Synonyme oder Paraphrasen erhöht (ParaEval). Auf diese Weise kann sichergestellt werden, dass unterschiedliche Formulierungen mit „derselben“ Bedeutung gleichermaßen als „korrekt“ bewertet werden können (Zhou et al. 2006, Han et al. 2018).

Bewertungssysteme wie WER, PER, TER, characterTER, HTER arbeiten dagegen, wie viele Humanevaluatoren auch, mit der Fehlerzahl, genauer mit der minimalen Zahl der nötigen Korrektur. Durch den Vergleich mit menschlichen Übersetzungen werden in den Kategorien wie „Substitution“, „Einfügung“ sowie „Tilgung“ Fehler entdeckt und aufgezählt. Die Ergebnisse dieser Aufzählung werden durch die Wortanzahl der Referenzübersetzungen dividiert (Han et al. 2018), damit die Zahl der Fehler durch die Textlänge normalisiert werden kann.

Um die abstrakte Bedeutung von Wörtern für die Maschine verständlich zu machen, wird auch die sogenannte „Worteinbettungsmethode“ (engl. Word Embedding) verwendet. Nach dieser Methode werden abstrakte Wortbedeutungen mit mehrdimensionalen Zahlenkombinationen (Vektoren) ausgedrückt. Diese Zahlen repräsentieren die Positionen der jeweiligen Wörter im mentalen Lexikon sowie deren Verhältnisse untereinander, so wie Koordinaten auf einer Karte die Positionen von Schiffen angeben. Je näher die Bedeutungen zweier Wörter sind, desto ähnlicher sind ihre „Koordinatenangaben“, die mit Vektoren ausgedrückt werden. „BLEUmodif“ etwa arbeitet mit dieser Technik (Wang / Merlo 2016).

Weitere automatische Bewertungssysteme sind ATEC, PORT und LEPOR, für die die Positionen einzelner Wörter in einem Satz oder Text wichtig sind (Han et. al 2018). Da die Menschen aber in der Regel nicht solche gravierenden syntaktischen Fehler begehen wie die Maschinen, sind diese Systeme für die Bewertung von Humanübersetzungen nicht besonders vorteilhaft.

Von den obigen Beispielen werden im Folgenden die zwei Systeme BLEU und METEOR näher unter die Lupe genommen, zumal sie zu den meist verwendeten gehören.

(1) BLEU

BLEU besteht aus zwei Komponenten, die als Zahlenwerte repräsentiert werden: Brevity Penalty (BP) und Präzision. Letzteres stellt N-Gramm-Übereinstimmungen zwischen maschinellen („Kandidatübersetzung", KÜ) und menschlichen Übersetzungen („Referenzübersetzung“, RÜ)) dar. Brevity Penalty hat dagegen die Funktion zu verhindern, dass die N-Gramm-Übereinstimmungen bei einer sehr kurzen Übersetzung unnatürlich hoch werden (siehe Bsp. 1). Beide Komponenten werden miteinander multipliziert (siehe Bsp. 2).

Bsp. 1

RÜ: North and South Korea have taken confidence-building measures.

KÜ1: Pyongyang and Seoul took measures that build the confidence between them. (3/11).

KÜ2: North and South taken confidence. (5/5)

(RÜ – Referenzübersetzung/KÜ – Kandidatübersetzung)

Die N-Gramm-Übereinstimmungen (in dem Fall „Monogram“) sind bei der kürzeren Übersetzung (KÜ 2) viel höher, obwohl die Übersetzung (KÜ 1) eine bessere Lösung darstellt. Brevity Penalty, der in einem solchen Fall zum Einsatz kommt, wird übrigens dann verhängt, wenn nicht einzelne Sätze, sondern der ganze Text kürzer als RÜ ist.

B r e v i t y P e n a l t y ( B P ) = 1 , i f c > r e 1 - r c , i f c r (1)

(c – candidate translation, r – reference translation)

(Papineni et al. 2002: 315)

Der gesamte BP-Wert liegt bei eins, wenn die KÜ länger als die RÜ ist (oben) und unter eins, wenn die Erstere kürzer als die Letztere ist (unten)[2]. Im letzteren Fall wird die KÜ bestraft, weil der BLEU-Wert, der sich durch die Multiplikation von BP (kleiner als eins) mit N-Gramm-Übereinstimmungen ergibt, am Ende niedriger ausfällt.

B L E U = min 1 , c r × ( i = 1 4 P n i ) 1/4 (2)

Formel (2) ist die vollständige BLEU-Formel. Pn steht für die Präzision und stellt den gesamten Wert der N-Gramm-Übereinstimmungen dar. Hierbei wird der Anteil der 1~N-Gramm-Übereinstimmungen an den gesamten 1 bis N-Grammen (in der Regel N=4) im Text miteinander multipliziert. Die Hochzahl 1/4 kommt von dem Gewichtungswert 1/N, der in Papineni et al. (2002) vorbestimmt ist.

Zusammenfassend kann die Grundidee von BLEU folgendermaßen beschrieben werden: Der Anteil der Übereinstimmungen von 1~4 Wörtern an der gesamten Übersetzung stellt lexikalische Ähnlichkeiten zwischen KÜ und RÜ dar. Davon soll besonders die Übereinstimmung von 2~4 Grammen Auskunft darüber geben, ob KÜ und RÜ nicht nur in lexikalischer, sondern auch in syntaktischer Hinsicht ähnlich sind. Damit dieser Präzisionswert immer verlässlich bleibt, wird auf eine viel zu kurze KÜ die Strafe BP verhängt, die dann den gesamten BLEU-Wert herunterzieht.

Bsp. 2

• RÜ: It is a guide to action that ensures that the military will forever heed party commands. (16)

• KÜ1: It is a guide to action which ensures that the military always obeys the commands of the party. (18)

• KÜ2: It is to insure the troops forever hearing the activity guidebook that party direct. (14)

(Papineni et al. 2002:312)

(In Klammern sind die Zahlen der Monogramme in den jeweiligen Sätzen)

• BLEU von KÜ1 = 1×(1218×817×616×315)14 = 0,005515

• BLEU von KÜ2 = 1416×(714×113×012×011)14 = 0

(2) METEOR

METEOR ist zwar auch ein formbasiertes Evaluationssystem, es unterscheidet sich aber in mancher Hinsicht von BLEU. Erstens wird die Übereinstimmung zwischen KÜ und RÜ nur anhand der Monogrammzahlen bemessen. Zweitens wird nicht nur die Präzision (Genauigkeit der Übereinstimmung), sondern auch der Recall (Vollständigkeit der Übereinstimmung) berücksichtigt. Drittens wird die Alignierung der Wörter nicht durch die Übereinstimmung der 2~4 Gramme, sondern durch die Übereinstimmung von „Chunks“ beurteilt.

Auch METEOR besteht aus zwei Komponenten, aus F-Mean und Penalty. Mit F-Mean wird bewertet, wie groß und wie genau die Ähnlichkeiten zwischen KÜ und RÜ sind. Auf Basis des Wertes von Penalty lässt sich beurteilen, wie ähnlich KÜ und RÜ in Bezug auf die Alignierung der Wörter sind (Banerjee and Lavie 2005:65–68).

Bei F-Mean handelt es sich um eine Variante des F-Maßes, das wiederum ein Mittel zwischen Präzision und Recall darstellt. Genauer gesagt ist das F-Maß ein harmonisches Mittel[3] von Präzision und Recall (van Rijsbergen 1979, Sasaki 2007). Zur Berechnung der Präzision werden die Übereinstimmungen zwischen KÜ und RÜ durch die Monogrammzahl von KÜ (siehe (3)) dividiert und zur Berechnung des Recalls durch die Monogrammzahl von RÜ (siehe (4)).

P = # u n i g r a m _ m a t c h e d _ c r # u n i g r a m _ c (3)

R = # u n i g r a m _ m a t c h e d _ c r # u n i g r a m _ r (4)

(c – candidate translation, r – reference translation)

Die Präzision und der Recall stehen beim F-Maß in einem ausgeglichenen Verhältnis (siehe (5)). Beim F-Mean dagegen (siehe (6)) fällt mehr Gewicht auf den Recall, also die Vollständigkeit der Übereinstimmung, als auf die Präzision, die Genauigkeit der Übereinstimmung. So wird der gesamte F-Mean-Wert viel stärker von der Veränderung des Recall-Wertes beeinflusst als von der der Präzision. Die Koeffizienten, wie 10 und 9 in (6), sind jedoch keine festgelegten Zahlen; sie können justiert werden, um die Korrelation mit der RÜ zu erhöhen (Denkowski / Lavie, 2011:87).

F - M a ß = 2 P R R + P (5)

(p – precision, r – recall) (Sasaki 2007:1)

F - M e a n = 10 P R R + 9 P (6)

(Banerjee and Lavie 2005:68)

Penalty bei METEOR, hat eine andere Funktion als bei BLEU. Penalty bestraft KÜ, wenn deren Wortfolgen von denen der RÜ abweichen. Diese Strafe wird schwerer, je weniger Chunk-Übereinstimmungen im Verhältnis zu Monogramm-Übereinstimmungen in der KÜ vorkommen (siehe (7)). Chunks sind dabei nicht auf eine bestimmte Wortzahl (wie z. B. 2~4 Gramme) festgelegt, sondern können beliebig lang sein.

P e n a l t y = 0.5 × ( # c h u n k s # u n i g r a m _ m a t c h e d ) 3

[4] (7)

(Banerjee and Lavie 2005:68)

Bsp. 3

RÜ: China is the main diplomatic ally and trading partner for North Korea

KÜ: China is the most important ally and trading partner for North Korea.

Hier können zwei Komponenten „China is the“ und „ally and trading partner for North Korea“ als Chunks betrachtet werden. Wenn die Wortfolgen der Wörter in der KÜ hundertprozentig mit denen in der RÜ übereinstimmen würden, läge die Zahl der Chunks bei 1, und in diesem Fall hätte man den niedrigsten Penalty-Wert.

Die vollständige Formel von METEOR sieht folgendermaßen aus:

M E T E O R = F - M e a n × ( 1 - P e n a l t y ) (8)

(Banerjee and Lavie 2005:69)

Wie Formel (8) zeigt, wird der gesamte METEOR-Wert immer von der Penalty negativ beeinflusst, weil der Penalty-Wert niemals größer als eins sein kann (siehe auch (7)). Das heißt, der METEOR-Wert sinkt nach der Multiplikation mit der Penalty zwangsläufig, solange die Alignierung der Wörter in der KÜ nicht hundertprozentig mit der in der RÜ übereinstimmt.

Bsp. 4

• RÜ: It is a guide to action that ensures that the military will forever heed party commands. (16)

• KÜ1: It is a guide to action which ensures that the military always obeys the commands of the party. (18)

• KÜ2: It is to insure the troops forever hearing the activity guidebook that party direct. (14)

(Papineni et al. 2002:312)

(In Klammern sind die Zahlen der Monogramme in den jeweiligen Sätzen)

• Meteor von KÜ1 = 0,740741×(1–0,002315) = 0,739026

• Meteor von KÜ2 = 0,492958×(1–0,0014577) = 0,492239[5]

(3) BLEU vs. METEOR

METEOR und BLEU haben jeweils ihre eigenen Stärken. Erstens ist METEOR mit seiner monogrammbasierten Formel vorteilhafter, wenn es darum geht, die Übersetzungsqualität elaboriert zu quantifizieren. Monogrammübereinstimmungen, die bei METEOR benutzt werden, haben einen höheren Prognosewert als 2~4 Grammübereinstimmungen, da sie einen größeren Einfluss auf das gesamte Ergebnis haben (Chung 2018). Außerdem können BLEU-Werte je nach Zahl der N-Gramme stark schwanken. Sie liegen manchmal bei null, weil Übereinstimmungen der 3~4 Gramme nicht sehr häufig vorkommen.[8]

Zweitens beziehen METEOR und BLEU zur Nutzung von Recall unterschiedliche Positionen. Bei METEOR wird der Recall nicht nur genutzt, sondern auch stark gewichtet (siehe (6)). Bei der Übersetzung gibt es ja nicht nur eine korrekte Lösung, sondern mehrere, die gleichermaßen als berechtigt anzusehen sind. Deshalb ist bei der Bewertung der Übersetzungsqualität, die auf den formellen Übereinstimmungen basiert, die Vollständigkeit (Recall) wichtiger als die Genauigkeit (Präzision). In Lavie et al. (2005) wurde dies sogar mit empirischen Daten belegt. Dort hatte der reine Recall-Wert eine höhere Korrelation mit den menschlichen Bewertungen als die Präzision oder das F-Maß (der Recall ist hier niedriger gewichtet als bei METEOR). Papineni et al. (2002) waren sich zwar der Vorteile des Recalls bewusst, nutzten ihn trotzdem nicht bei BLEU. Dort wurde diese Entscheidung damit begründet, dass die Nutzung des Recalls zu einem fehlerhaften Ergebnis führen könnte, wenn nicht nur eine RÜ, sondern mehrere RÜs zum Einsatz kommen. Denn der Recall bewertet dann solche KÜ höher, welche die in mehreren RÜs vorkommenden Wörter möglichst vollständig wiedergeben (ibid. 314–315).

Drittens sind Chunks bei METEOR ein effektiveres Mittel als 2~4 Gramme bei BLEU, wenn es um die Bewertung der Syntax geht, weil mit Chunks auch die Qualität von längeren Passagen bewertet werden kann. Chunks haben – weil sie Zähler in der Bruchzahl sind (siehe (7)) – einen gemäßigten Einfluss auf den gesamten METEOR-Wert, während 2~4 Übereinstimmungen die BLEU-Werte übermäßig stark beeinflussen, weil sie miteinander multipliziert werden. Dieser Einfluss wird „fatal“, wenn einer dieser Werte bei null liegt. Insofern sind Chunks in rechnerischer Hinsicht auch ein praktischeres Mittel als 2~4 Gramme. Auch bei einer menschlichen Bewertung spielt die Alignierung der Wörter eher eine Nebenrolle und hat keinen starken Einfluss auf das gesamte Ergebnis.

Trotz all dieser Feststellungen, die zugunsten von METEOR ausgefallen sind, ist nicht METEOR, sondern BLEU das meist verwendete Evaluationssystem, wahrscheinlich auch, weil dessen Formel einfach und intuitiv ist.[9] In der vorliegenden Arbeit wird – ohne Vorurteile – die Validität der beiden Systeme untersucht, um herauszufinden, welches System für die Bewertung der Humanübersetzungen besser geeignet ist.

2.2 Evaluation: Mensch vs. Maschine

Das vorangegangene Kapitel beschäftigte sich hauptsächlich mit den automatischen Bewertungen, also den Bewertungen durch die Maschinen. Wie bewerten aber die Menschen die Übersetzungsqualität? Worin unterscheiden sich menschliche und automatische Evaluation voneinander? Das ist die Frage, die man stellen muss, um die Validität der automatischen Evaluation zu überprüfen.

(1) Grundidee

Nicht nur Maschinen, sondern auch Menschen bewerten die Qualität einer Übersetzung, indem sie die Übersetzungen mit Musterübersetzungen (Referenzübersetzungen) vergleichen. Bei Menschen existieren allerdings diese Musterübersetzungen nur im Kopf. So gesehen sind die Musterübersetzungen der Menschen eine Art Frame (Fillmore 1977), d. h. präverbale Repräsentationen, und können bei der Verbalisierung mit mehreren synonymischen Ausdrücken realisiert werden. Deshalb können die menschlichen Evaluatoren unterschiedliche Übersetzungsvarianten gleichermaßen als „korrekt“ bewerten, wobei ihre Bewertungen je nach ihren Schwerpunkten unterschiedlich ausfallen könnten.

(2) Methodik

Bei der menschlichen Evaluation handelt es sich hauptsächlich um ein Punkteabzugssystem. Evaluatoren erstellen eine Bewertungsmatrix, in der verschiedene Bewertungskriterien aufgelistet sind. Die Kriterien haben, je nach Modell, zwar unterschiedliche Namen (Kategorien), aber im jeweiligen Modell verkörpern sie zusammen „ideale“ Übersetzungen des jeweiligen Evaluators. Die Evaluatoren ziehen entsprechend viele Punkte ab, je nachdem, welchen Kategorien ein Fehler angehört und wie schwer er wiegt. Unten aufgelistet sind die Bewertungskriterien von einigen bekannten Evaluationsmodellen. Ähnliche oder vergleichbare Kriterien sind dabei in derselben Kategorie zusammengefasst, sodass am Ende aus ein paar Dutzend Kriterien acht Kategorien entstanden.

  1. Bedeutung – definite lack of comprehension of source language, nonsense, wrong shade of meaning (CTTIC[10]), unjustified distortion (NAATI[11]), accurate comprehension of a ST, domain-specific knowledge (Macquarie[12]), accuracy of the message (Adab 2000), context (Brunette 2000), significant departure from the meaning of an essential element of the message (Sical[13]), semantic equivalence (Bensoussan / Rosenhouse 1990)

  2. Ausdruck – mistranslation of single word (CTTIT), register, style (NAATI), stylistic feature (Macquarie) / terminology, idiomaticity, Literal translation (KLTI[14]), register (House 1997)

  3. Grammatik – syntax, grammar (CTTIC, NAATI), unacceptable structure (CTTIC), Tense, agreement, plural/singular (KLTI)

  4. Tilgung/Hinzufügung – unjustified omission, insertion (NAATI), omission/addition affecting meaning, unnecessary repetition (CTTIC), unmotivated omission (KLTI) etc.

  5. Formale Kriterien – breach of spelling, punctuation, typographical conventions (CTTIC), orthography (NAATI), numbering, orthography and punctuation (KLTI), format (appearance of text) (Williams 2001) etc.

  6. Kohärenz – gibberish (CTTIC), comprehension of the logical argument (Macquarie), logic, cohesion, coherence (Brunette 2000), consistency (KLTI), misinterpretations of macro-level structure (frame, scene), pragmatic etc.

  7. Lesbarkeit – readability (KLTI, Macquarie), acceptability (Adab 2000) etc.

  8. Funktionalität[15] – text structure appropriate to the genre (NAATI), Instructions by the client (Macquarie), reader appeal (KLTI), adaptation to end user (Williams 2001), purpose (Brunette 2000), overt and covert translation (House 1997), pragmatic equivalence, fidelity on functional level (Bensoussan / Rosenhouse 1990) etc.

Wenn man die Bewertungskriterien von BLEU und METEOR mit denen der Menschen (oben) vergleichen, sind die Monogrammübereinstimmungen von BLEU mit Kriterien wie “Bedeutung”, “Ausdruck” und “Tilgung/Hinzufügung” vergleichbar, etwa 2–4 Grammübereinstimmungen, mit “Grammatik”. Auf der makrotextuellen Ebene können Monogrammübereinstimmungen auch die “Funktionalität” des Textes beurteilen, weil bei diesem Kriterium das Register eine wichtige Rolle spielt, das oft mit unterschiedlichen Wörtern realisiert wird (Bsp. unterschreiben vs. unterzeichnen). Brevity Penalty hat auch eine makrotextuelle Funktion und kann Auskunft über die “Lesbarkeit” und die “Kohärenz” der Übersetzung geben. Bei METEOR übernimmt F-Mean die Funktion von “Bedeutung”, “Ausdruck”, “Tilgung/Hinzufügung” und “Funktionalität”, weil er einen Durchschnittswert der Monogrammübereinstimmungen darstellt. Penalty bei METEOR ist dagegen mit Kriterien wie “Grammatik”, “Lesbarkeit” und “Kohärenz” zu vergleichen, weil sie mit Chunks, also Multigramm-Übereinstimmungen errechnet und damit von der Textlänge und ‑alignierung beeinflusst wird.

Tabelle 1

Übereinstimmungen Strafpunkte
BLEU Monogramm 2–4 Gramme Brevity Penalty
Bedeutung, Ausdruck, Tilgung/Hinzufügung, Funktionalität Grammatik Kohärenz, Lesbarkeit
METEOR F-Mean Penalty
Bedeutung, Ausdruck, Tilgung/Hinzufügung, Funktionalität Grammatik, Kohärenz, Lesbarkeit

(3) Quantifizierung

Die menschliche Evaluation arbeitet hauptsächlich mit dem Punktabzugs- und die automatische Evaluation mit dem Punktzuschlagssystem. Die Menschen ziehen bei jedem Fehler Punkte ab und geben ggf. zusätzliche Punkte bei einer besonders kreativen Lösung. Die abgezogene Punktzahl variiert abhängig davon, wie groß die Auswirkung des Fehlers auf die betroffene Textstelle bzw. den gesamten Text ist (Waddington 2001 b; Williams 2001). Die Schwere der Fehler ist auch bei der automatischen Evaluation ein wichtiger Faktor.[16] Denn bei niedrigen BLEU-Werten spielt etwa auch die Länge der fehlerenthaltenden Passage (Auswirkungsmaß) eine Rolle, weil im Fall von Nicht-Übereinstimmungen je nach Länge der N-Gramme mehr oder weniger Punkte abgezogen werden.

(4) Fazit

Die automatische Evaluation hat ihre Stärke in der Bewertung der formalen Eigenschaften von Texten, etwa bei Tilgung/Hinzufügung und Orthografie, weil sie auf den Übereinstimmungen der einzelnen Wörter basieren. So gesehen ist die automatische Evaluation eher für die mikrotextuelle Bewertung geeignet. Penalty (BP bei BLEU) ist dagegen als ein makrotextuelles Bewertungsmittel anzusehen, aber als ein sehr unpräzises, weil Satzlängen oder Wortalignierungen nicht viel über die makrotextuellen Qualitäten (Kohärenz, Lesbarkeit) eines Textes aussagen können.

Die menschliche Evaluation hat dagegen ihre Stärke in der Bewertung der abstrakten Eigenschaften eines Textes, da Menschen mit präverbalen Konzepten einer idealen Übersetzung arbeiten. Menschen verstehen einen Text im Kontext und haben damit einen Überblick über den gesamten Textinhalt. Sie nutzen außerdem Kohäsionsmittel oder Hintergrundwissen, um die Kohärenz oder die Lesbarkeit des Textes zu beurteilen. Im Gegensatz dazu fällt es den Menschen schwer, jedem einzelnen Element des Textes die gleiche Aufmerksamkeit zu schenken. Da die Schwächen von Mensch und Maschine so komplementär sind, können diese möglicherweise durch die Kombination ihrer Stärken kompensiert werden.

3 Versuchsdesign

Im Folgenden soll überprüft werden, ob und wie BLEU und METEOR auch für die Bewertung von Humanübersetzungen eingesetzt werden können. Zu diesem Zweck wird eine empirische Studie durchgeführt, wo menschliche Übersetzungen zuerst mittels BLEU und METEOR bewertet und deren Ergebnisse dann mit den Bewertungen von professionellen Evaluatoren verglichen werden. Auf Grundlage dieser Ergebnisse soll nach Möglichkeiten gesucht werden, wie BLEU und METEOR bei Humanübersetzungen effektiv genutzt werden können.

Übersetzer

Die Übersetzungen (Deutsch → Koreanisch) wurden von zehn Studierenden angefertigt, die hinsichtlich ihrer Ausbildung und Fertigkeiten im Übersetzen deutliche Unterschiede zeigten. Zwei der Studierenden waren aus der Germanistik und acht aus der Graduiertenschule für Übersetzung. Für acht Studenten ist Koreanisch die Muttersprache, für eine Deutsch, und eine weitere gab beide Sprachen als ihre Muttersprachen an.

Ausgangstexte

Insgesamt zwölf Texte mit insgesamt 2.596 Wörtern unterschiedlicher Typen und Länge (kürzere Texte: 132–154 Wörter, längere Texte: 240–270 Wörter) wurden ausgewählt, um zu überprüfen, ob die automatischen Evaluationsverfahren auch bei verschiedenen Texttypen gleichermaßen anwendbar sind. Texttypen wie politische Reden, Zeitungsartikel, Buchrezension, Kommentar und Interview lassen sich zwar nicht exakt wörtlich übersetzen, wie es bei manchen technischen Texten der Fall ist, aber sie haben, im Vergleich etwa zu literarischen Texten, relativ begrenzte Übersetzungsvarianten, sodass man einen gewissen Grad an Wortübereinstimmungen mit RÜ erwarten kann. Diese Texte sind außerdem – anders als bei früheren Untersuchungen verwendete Texte (siehe Fußnote 17) – relativ lang (mehr als 130 Wörter pro Text) und in sich kohärent.

Übersetzungsprozess und Fragebogen

Die Studenten saßen zur selben Zeit im selben Raum und bekamen die Anweisung, die Texte innerhalb von neun Stunden (jeweils drei Stunden über drei Tage) ohne zusätzliche Hilfe zu übersetzen. Sie erhielten im Vorfeld Informationen über den Übersetzungszweck und die potenzielle Lesergruppe. Am Ende füllten Sie einen Fragebogen aus, der Fragen zur Vertrautheit mit den Themen und zum empfundenen Schwierigkeitsgrad der Übersetzung enthielt.

Evaluation

  1. Automatische Evaluation (AE): Insgesamt 120 Zieltexte, die (mit Hilfe von Kkma und Twitter) lemmatisiert sind, wurden nach der Formel von BLEU und METEOR bewertet. Die RÜ, die man bei der Berechnung von BLEU und METEOR braucht, lieferten drei Evaluatoren.

  2. Menschliche Evaluation (ME): Drei professionelle Übersetzer (auch Lektoren der Übersetzungsinstitute) mit mehr als dreijähriger Berufserfahrung bewerteten auf Basis einheitlicher Kriterien und desselben Punktesystems (Punkteabzug von 1–3 Punkte pro Fehler) die automatischen Übersetzungen. Ihre Bewertungskriterien waren auf der mikrotextuellen Ebene die Kategorien wie „Bedeutung“, „Ausdruck“ und „Grammatik“ und auf der makrotextuellen Ebene, „Lesbarkeit“, „Kohärenz“ und „Funktionalität“ (siehe 2.2). Diese Kriterien sind bei der Notengebung unterschiedlich berücksichtigt (mikrotextuell: 95 % und makrostrukturell: 5 % nach Waddington (2001b), modifiziert).

  3. Korrelation – Korrelationen zwischen AE und ME werden sowohl bezüglich der Note (Pearson-Korrelation) als auch nach der Rangfolge (Spearman-Korrelation) berechnet. Diese Korrelationswerte stellen die Verhältnisse zwischen den Bewertungen jeweils eines Evaluators (ME) und den automatischen Bewertungen (AE) dar, die anhand der von demselben Evaluator angefertigten RÜ errechnet wurden.

4 Resultat und Diskussion

Die Ergebnisse werden im Folgenden anhand von drei Leitfragen ausgewertet: (1) Sind AE auch bei den Humanübersetzungen anwendbar? (2) BLEU vs. METEOR: Was ist das bessere System? Und (3) Welche Anwendungsmöglichkeiten für BLEU / METEOR gibt es?

4.1 Sind AE auch bei Humanübersetzungen anwendbar?

Um diese Frage zu beantworten, werden die Korrelationen zwischen AE und ME sowie die Korrelationen zwischen einzelnen Evaluatoren (Reliabilität der ME) berechnet.

Tabelle 2[17]

BLEU-ME METEOR-ME BLEU-METEOR
Note Rangfolge Note Rangfolge Note Rangfolge
0,849** 0,77** 0,862** 0,842** 0,94*** 0,879***

*p<0,05 **p<0,01 ***p<0,001

Tabelle 3[18]

Evaluator 1-Evaluator 2 Evaluator 2-Evaluator 3 Evaluator 1-Evaluator 3
Note Rangfolge Note Rangfolge Note Rangfolge
0,913*** 0,952*** 0,964*** 0,952*** 0,929** 0,891**

*p<0,05 **p<0,01 ***p<0,001

Die Korrelationen zwischen BLEU/METEOR und ME bezüglich der Noten waren mit 0,849** und 0,862** (**p<0,01) relativ hoch.[19] Die Korrelation zwischen BLEU und METEOR lag mit 0,94** noch höher, etwa ähnlich hoch wie die Korrelation unter den menschlichen Evaluatoren, mit 0,913*** 0,964*** und 0,929** (***p<0,001). Die Korrelationen zwischen AE und ME bezüglich der Rangfolgen lagen zwar etwas unter denen der Noten, aber immerhin über 0,8 (bis auf die Korrelation zwischen BLEU und ME (0,77**)). Die Korrelationen scheinen zwischen Mensch-Mensch und Maschine-Maschine besonders hoch zu sein. Beim Vergleich von BLEU und METEOR wies Letztere eine etwas höhere Korrelation mit ME auf.

Hinsichtlich der Reliabilität der Evaluation wurde erwartet, dass BLEU und METEOR die Menschen übertreffen würden, da sie bei der Bewertung immer dieselbe Formel benutzen. Um diese „Hypothese“ zu testen, wurden anhand des Variationskoeffizienten (coefficient of variance, CV) die Abweichungen zwischen drei Evaluatoren 1-2–3 voneinander sowie BLEU 1-2-3[20] und METEOR 1-2–3 gemessen. Die Abweichungen bei BLEU lagen mit 0,101 am weitesten auseinander, bei METEOR, mit 0,023 am wenigsten. Der CV der menschlichen Evaluatoren betrug 0,055. Auch bezüglich der Reliabilität hatte METEOR also das beste Ergebnis.

Die obigen Ergebnisse basieren allerdings auf den Bewertungen der Gesamtleistungen. Die Ergebnisse bei den einzelnen Texten fielen wiederum anders aus. Bei BLEU waren 30,56 % aller Korrelationen unter 0,3, bei METEOR 22,22 %. In einigen Fällen wiesen AE und ME sogar negative Korrelationen auf (BLEU: 9,72 %, METEOR: 8,33 %). Der Anteil der Fälle mit hohen Korrelationswerten (über 0,7) war etwa ähnlich hoch (BLEU: 26,39 %, METEOR: 30,55 %) wie die mit Werten unter 0,3. Auch hier stand METEOR etwas besser da als BLEU. Aber die besten Ergebnisse wurden bei Menschen erzielt. Die Korrelationen zwischen menschlichen Evaluatoren waren nicht nur bei der Gesamtbewertung, sondern auch bei einzelnen Bewertungen am höchsten. Es gab keine Werte unter 0,3, und die über 0,7 lagen bei 63,88 %.

Als Nächstes wurden längere Texte mit kürzeren Texten und schwierige Texte[21] mit einfachen Texten verglichen. Bei längeren Texten (240–270 Wörter) lagen die Korrelationen zwischen AE und ME insgesamt höher als bei kürzeren Texten (132–154 Wörter). Auch zwischen menschlichen Evaluatoren wiesen längere Texte höhere Korrelationen auf als kürzere.

Tabelle 4

BLEU-ME METEOR-ME BLEU-METEOR
Längere Texte Kürzere Texte Längere Texte Kürzere Texte Längere Texte Kürzere Texte
N R N R N R N R N R N R
0,753 * 0,721 0,488 0,37 0,623 0,733 0,749 * 0,709 0,879 ** 0,983 ** 0,744* 0,794**

*p<0,05 **p<0,01 ***p<0,001 (N = Note / R = Rangfolge)

Tabelle 5

Evaluator 1-Evaluator 2 Evaluator 2-Evaluator 3 Evaluator 1-Evaluator 3
Längere Texte Kürzere Texte Längere Texte Kürzere Texte Längere Texte Kürzere Texte
N R N R N R N R N R N R
0,937 *** 0,903 *** 0,671* 0,673* 0,952 *** 0,976 *** 0,871** 0,927*** 0,959 *** 0,855 ** 0,59 0,673*

*p<0,05 **p<0,01 ***p<0,001 (N = Note / R = Rangfolge)

Auch bezüglich der Schwierigkeitsgrade gab es – wenn auch geringfügige – Unterschiede. Sowohl bei BLEU als auch bei METEOR wiesen einfache Texte höhere Korrelationen auf als schwierige (Tabelle 6). Bei den menschlichen Evaluatoren waren die Ergebnisse gemischt (Tabelle 7).

Tabelle 6

BLEU-ME METEOR-ME BLEU-METEOR
Schwierig Einfach Schwierig Einfach Schwierig Einfach
N R N R N R N R N R N R
0,76* 0,745 0,883 ** 0,879 ** 0,685* 0,612 0,958 *** 0,927 *** 0,819** 0,83 ** 0,885 ** 0,83 **

*p<0,05 **p<0,01 ***p<0,001 (N = Note / R = Rangfolge)

Tabelle 7

Evaluator 1-Evaluator 2 Evaluator 2-Evaluator 3 Evaluator 1-Evaluator 3
Schwierig Einfach Schwierig Einfach Schwierig Einfach
N R N R N R N R N R N R
0,872** 0.867** 0.892 ** 0.903 *** 0.954 *** 0.939 *** 0.928*** 0.915*** 0.923 *** 0.842** 0.922*** 0.891 **

*p<0.05 **p<0.01 ***p<0.001 (N = Note / R = Rangfolge)

Die obigen Ergebnisse (Tabelle 6) kamen etwas überraschend, da davon auszugehen war, dass die Studenten gerade bei schwierigen Texten große Leistungsunterschiede zeigen würden, was die Bewertung dann vereinfachen würde.[22] Aber die Ergebnisse in Tabelle 6 zeigen, dass sich AE und ME eher bei einfachen Texten einig waren. Eine erweiterte Analyse mit einer größeren Datenmenge würde zu dieser Frage mehr Gewissheit bringen.

4.2 BLEU vs. METEOR: Was ist das bessere System?

In allen Punkten erwies sich METEOR für die Bewertung der Humanübersetzungen besser geeignet als BLEU. Die Unterschiede waren jedoch nicht sehr groß. Sowohl bei der Gesamtbewertung (BLEU : METEOR = 0,849** < 0,862**) als auch bei der Bewertung der einzelnen Texte (Korrelationen unter 0,3: BLEU : METEOR = 30,56 % > 22,22 % / Korrelationen über 0,7: BLEU : METEOR = 26,39 % < 30,55 %) zeigte sich METEOR der ME ähnlicher als BLEU. METEOR-Bewertungen waren außerdem reliabler als BLEU und sogar als die der ME (CV-Werte: BLEU : Mensch : METEOR = 0,101 > 0,055 > 0,023). Die Gründe für die besseren Leistungen von METEOR könnten in der Grundidee und in der Formel von METEOR liegen, nämlich in der monogrammbasierten Wortübereinstimmung, im Einbezug von Recall in die Formel sowie in der Alignierungsübereinstimmung nach Chunk-Einheiten. (siehe 2.1 (2)).

4.3 Welche Anwendungsmöglichkeiten für BLEU / METEOR gibt es?

Drei Möglichkeiten kommen für die Anwendung von BLEU / METEOR in Betracht. Erstens können BLEU und METEOR zu dem Zweck genutzt werden, die Gesamtleistungen von Studierenden zu bewerten (etwa für das ganze Semester). Mehr Bewertungsfälle (Übersetzungen) brachten in dieser Studie höhere Korrelationen mit ME (über 0,8).

Zweitens können BLEU und METEOR für mikrotextuelle Bewertungen eingesetzt werden. Beide AE-Systeme basieren grundsätzlich auf Wortübereinstimmungen, d. h. der „Genauigkeit“ der Übersetzung. Penalty bei METEOR oder 3–4 Wortübereinstimmungen bei BLEU dienen zwar zur makrostruktuellen Bewertung, aber sie sind nicht ausreichend, um abstrakte Eigenschaften wie Kohärenz oder die Lesbarkeit von Texten zu beurteilen. Dafür sind die sprachlichen Intuitionen der Muttersprachler besser geeignet. Die Intuitionen der muttersprachlichen „Experten“ gelten zwar als ein valides Bewertungsinstrument, reichen jedoch nicht aus, ein Urteil über die Genauigkeit der Übersetzung zu bilden. So erwiesen sich Evaluationen, die auf Fehleranalyse basierten, als ein vertrauenswürdigeres Bewertungsinstrument als rein Intuition-basierte Evaluationen (Waddington 2001 b:321–323).[23] Die Ergebnisse der formbasierten AE können aber den menschlichen Evaluatoren dabei helfen, ihre Bewertungsergebnisse in Zahlen auszudrücken (Quantifizierung der Übersetzungsqualität).

Drittens können die Formeln von BLEU und METEOR dahingehend modifiziert werden, Eigenschaften der menschlichen Übersetzungen besser zu berücksichtigen. Auch hier gibt es drei Möglichkeiten.

(1) Die Nutzung von Synonymen und Paraphrasen: Diese Möglichkeit wurde bereits in mehreren Arbeiten (Banerjee / Lavie 2005, Han et al. 2018) erwähnt. Die Nutzung von Synonymen und Paraphrasen ist bei der Bewertung verschiedener Übersetzungsvarianten eine praktischere Möglichkeit als etwa die Nutzung von mehreren RÜ (BLEU).[24] EBLEU, ParaEval und andere AE nutzen diese Möglichkeit.

(2) Die Regulierung des Verhältnisses zwischen Präzision und Recall: Sowohl die Präzision als auch der Recall haben ihre eigenen Stärken beim Informationsabruf. Lavie, der METEOR mitentwickelt hat und in Lavie et al. (2004) die Bedeutung des Recalls stark hervorgehoben hatte, vertrat später in Denkowski / Lavie (2011) die Ansicht, dass die Verhältnisse zwischen Präzision und Recall dahingehend verändert werden können, dass die Korrelation zwischen ME und AE den maximalen Wert erreicht (Denkowski / Lavie 2011:87).

Tabelle 8

Korrelation der AE mit ME

BLEU METEOR Präzision Recall
Note Rangfolge Note Rangfolge Note Rangfolge Note Rangfolge
0,849** 0,77** 0,86182** 0,842** 0,799 ** 0,6 0,8 ** 0,77 **

*p<0,05 **p<0,01 ***p<0,001

Um nach diesen „idealen“ Verhältnissen zu suchen, wurden in dieser Studie die Korrelationen zwischen ME und AE mit unterschiedlichen Recall-Gewichten errechnet, angefangen mit dem Gewicht 2 (F-Maß, vgl. Formel (5)) bis das Gewicht 10 (F-Mean, vgl. Formel (6)). Bei der Gesamtbetrachtung erreichte die Korrelation den höchsten Wert beim Gewicht 2, also dem des F-Maßes, wobei die Unterschiede nicht sehr groß waren (Tabelle 9).

Tabelle 9

Korrelation der AE mit ME bei Recall-Gewichten 2~10

Gewicht 2 Gewicht 4 Gewicht 6 Gewicht 8 Gewicht 10
0.86175** 0.849** 0.836** 0.829** 0.824**

*p<0,05 **p<0,01 ***p<0,001

Diese Unterschiede wurden bei der Einzelbetrachtung (Korrelationen zwischen ME und AE in einzelnen Texten) deutlicher. 52,78 % aller Bewertungsfälle hatten die höchsten Korrelationen mit der ME, wenn das Gewicht bei 2 (F-Maß) lag. Interessant war, dass hier – anders als bei der Gesamtbetrachtung – das Gewicht 10 (F-Mean) das zweitbeste Ergebnis (33,33 %) brachte. Bei allen anderen Gewichten, d. h. 4, 6, 8, waren die Fälle mit den höchsten Korrelationen mit der ME eher selten (2,78–8,33 %). Insgesamt erwies sich in dieser Studie das F-Maß als das beste Mittel zur Beurteilung der Übersetzungsqualität. Diesem Ergebnis zufolge stellt die jetzige METEOR-Formel, die F-Mean, und nicht F-Maß benutzt, nicht das ideale Verhältnis zwischen Präzision und Recall dar. Aber auch mit diesem Ergebnis muss man vorsichtig sein, weil die Anzahl der berücksichtigten Texte mit 120 nicht sehr groß war.

(3) Abschaffung oder Modifizierung von Brevity Penalty (BLEU): BP bei BLEU wurde entwickelt, um einer allzu kurzen maschinellen Übersetzung eine Strafe zu verpassen (siehe 2.1 (1)). Bei menschlichen Übersetzungen sind aber kurze Texte nicht notwendigerweise von schlechter Qualität. Das Gegenteil ist manchmal der Fall, weil kurze Übersetzungen oft den Inhalt des Ausgangstextes prägnanter wiedergeben. Insofern könnte – anstatt der Brevity Penalty – eine Length Penalty, also eine Strafe, die verhängt wird, wenn die Länge der KÜ von der der RÜ abweicht, für die Bewertung der Humanübersetzungen sinnvoller sein (Han et al. (2012:443)).

5 Zusammenfassung und Fazit

In der vorliegenden Studie geht es um die Frage, ob und wie die automatischen Evaluationssysteme, die zur Bewertung von maschinellen Übersetzungen entwickelt wurden, auch für die menschlichen Übersetzungen angewendet werden können. Menschliche Evaluation (ME) – besonders die von „Experten“ – gilt im Allgemeinen als valide, kostet aber viel Zeit und Mühe, während automatische Evaluationen (AE), wie etwa BLEU und METEOR schnell und mühelos durchgeführt werden können, wobei ihre Validität fraglich ist.

Um die obige Frage zu beantworten, wurden 120 Übersetzungen (auf der Basis von 12 Ausgangstexten, durchgeführt von 10 Studierenden) sowohl von drei menschlichen Evaluatoren (professionellen Übersetzern/Lektoren mit mehr als drei Jahren Erfahrung mit der Übersetzung sowie der Übersetzungsbewertung) als auch mittels BLEU bzw. METEOR evaluiert. BLEU und METEOR sind beide automatische Systeme, welche auf den Wortübereinstimmungen zwischen der Kandidatübersetzung und der Musterübersetzung sowie auf der Penalty, also Strafe basieren, wobei sich beide Systeme in den Definitionen der Wortübereinstimmung und der Penalty voneinander unterscheiden. Wortübereinstimmungen sind mit Kriterien wie etwa „Bedeutung“, „Ausdruck“, „Tilgung“ oder „Hinzufügung“ vergleichbar (mikrotextuelle Kriterien) und Penalty, mit Kriterien wie „Lesbarkeit“ und „Kohärenz“ (makrotextuelle Kriterien) (siehe 2.2).

Bei der Gesamtbetrachtung waren die Korrelationen zwischen AE und ME jeweils mit 0,849** und 0,862** (** p<0,01) relativ hoch. Auch bezüglich der Rangfolgen waren sie mit 0,77** und 0,842** (** p<0,01) ebenfalls hoch. Bei den Einzelbetrachtungen, d. h. bei den Bewertungen der einzelnen Texte, gab es aber große Unterschiede zwischen AE und ME. Hierbei lagen die Korrelationen zwischen AE und ME oft unter 0,3 (BLEU: 30,56 %, METEOR: 22,22 %) oder sogar im negativen Bereich (BLEU: 9,72 %, METEOR: 8,33 %).

Beim Vergleich zwischen BLEU und METEOR erwies sich Letzteres als das bessere System. Sowohl bei der Gesamtbetrachtung als auch bei den Einzelbetrachtungen waren die Korrelationen zwischen METEOR und ME höher als die zwischen BLEU und ME. Auch in Bezug auf die Reliabilität, die mit dem Variationskoeffizienten (CV) bemessen wurde, zeigte sich METEOR stabiler (d. h. kleinere Varianz unter den Evaluatoren) als BLEU, wobei der Unterschied relativ gering war (BLEU: METEOR = 0,099 > 0,023).

Alles in allem erwiesen sich BLEU und METEOR – begrenzt auf die Gesamtbetrachtung – zwar als ein brauchbares Instrument, ihre Validität und Reliabilität sind aber, besonders beim Vergleich zu ME, nicht ausreichend, um Humanübersetzungen zu bewerten. Die Korrelationen zwischen den menschlichen Evaluatoren lagen in meisten Fällen über 0,9, und es gab keinen einzigen Fall, wo die Korrelation unter 0,3 lag. Nur die Abweichungen der Evaluatoren (CV) voneinander war etwas größer als METEOR (METEOR: ME = 0,023 < 0,055).

Insgesamt kann weder METEOR noch BLEU zum jetzigen Stand zur Bewertung von menschlichen Übersetzungen eingesetzt werden. Aber es besteht die Möglichkeit, dass manche Schwächen der menschlichen Evaluation durch AE-Systeme ausgeglichen werden. Erstens können METEOR und BLEU für die Bewertung von Gesamtleistungen (d. h. zur Bewertung von mehreren Übersetzungen eines Translators) herangezogen werden. Zweitens kann man mittels AE nur die mikrotextuelle Qualität von Übersetzungen bewerten, da die Stärke der automatischen Systeme gerade in der formellen Akkuratheit liegt. Drittens können sich METEOR und BLEU mehr den Eigenschaften von Humanübersetzungen anpassen, etwa durch (1) die Nutzung von Synonymen und Paraphrasen, (2) die Suche nach „idealen“ Verhältnissen zwischen Präzision und Recall (Denkowski / Lavie 2011) sowie durch (3) die Abschaffung oder die Modifizierung von Brevity Penalty (Han et al. 2012). So gesehen sind die Erfassung von abstrakten Eigenschaften in Texten, wie etwa die von Bedeutungen, sowie die Entwicklung eines für die Bewertung der makrotextuellen Qualität besser geeigneten Instruments, zwei wichtigsten Aufgaben, die BLEU und METEOR bewältigen müssen, um bei der Bewertung von Humanübersetzung eingesetzt werden zu können.


Anmerkung

This research was supported by Basic Science Research Program through the National Research Foundation of Korea (NRF) funded by the Ministry of Education (2018S1A5A2A01036380). This work was supported by Hankuk University of Foreign Studies Research Fund (0f 2019).


Danksagung

Ich bedanke mich ganz herzlich bei Prof. Dr. Kim, Yu-Seop (Universität Hallym) für seine Beratungen über BLEU und METEOR sowie bei seinem Studenten Heo, Tak-Sung für die Rechenarbeit.

Literatur

Adab, Beverly (2000): “Evaluating Translation Competence”. Schäffner, Christina / Adab, Beverly (2000) (Hrsg.): Developing Translation Competence. Amsterdam/Philadelphia: John Benjamins Publishing, 215–228.10.1075/btl.38.20adaSearch in Google Scholar

Banerjee, Satanjeev / Lavie, Alon (2005): “METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments”. Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, 65–72.Search in Google Scholar

Bensoussan, Marsha / Rosenhouse, Judith (1990): “Evaluating Students’ translations by Discourse Analysis”. Babel, 65–84.10.1075/babel.36.2.02benSearch in Google Scholar

Brunette, Louise (2000): “Towards a Terminology for Translation Quality Assessment. A Comparison of TQA Practices”. The Translator 6(2), 169–182.10.1080/13556509.2000.10799064Search in Google Scholar

Callison-Burch, Chris / Osborne, Miles / Koehn, Philipp (2006): “Re-evaluating the Role of Bleu”. Machine Translation Research, 249–256.Search in Google Scholar

Chung, Hye-Yeon (2018): “Automatic Evaluation of Human Translation (KAPPA) (in Korean)”. Interpreting and Translation Studies 22(4), 265–287.Search in Google Scholar

Denkowski, Michael / Lavie, Alon (2011): “Meteor 1.3: Automatic Metric for Reliable Optimization and Evaluation of Machine Translation Systems”. Proceedings of the 6th Workshop on Statistical Machine Translation, 85–91.Search in Google Scholar

Echizen’ya, Hiroshi / Araki, Kenji / Hovy, Eduard (2013): “Automatic Evaluation Metric for Machine Translation that is Independent of Sentence Length”. Proceedings of Recent Advances in Natural Language Processing Sep. 2013, 230–236.Search in Google Scholar

Han, Aaron L. / Wong, Derek F. / Chao, Lidia S. (2012): “LEPOR: A Robust Evaluation Metric for Machine Translation with Augmented Factors”. Proceedings of COLING 2012: Posters, 441–450.Search in Google Scholar

Han, Aaron L. / Wong, Derek F. / Chao, Lidia S. (2018): “Machine Translation Evaluation Resources and Methods: A Survey”. Ireland Postgraduate Research Conference 2018. https://arxiv.org/pdf/1605.04515.pdf [10.09.2019]Search in Google Scholar

House, Juliane (1997): Translation Quality Assessment: A Model Revisited. Gunter Narr: Tübingen.Search in Google Scholar

Kunilovskaya, Maria (2015): “How far do we agree on the quality of translation?” English Studies at NBU 1(1), 18–31.10.33919/esnbu.15.1.2Search in Google Scholar

Lai, Tzu-Yun (2011): “Reliability and Validity of a Scale-based Assessment for Translation Tests”. Meta 56(3), 713–722.10.7202/1008341arSearch in Google Scholar

Lavie, Alon / Sagae, Kenji / Jayaraman, Shyamsundar (2005): “The Significance of Recall in Automatic Metrics for MT Evaluation”. Machine Translation: From Real Users to Research, Springer Verlag: Heidelberg, 134–143.10.1007/978-3-540-30194-3_16Search in Google Scholar

Papineni, Kishow / Roukos, Salim / Ward, Todd / Zhu, Wei-Jing (2002): “BLEU: a Method for Automatic Evaluation of Machine Translation”. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), 311–318.10.3115/1073083.1073135Search in Google Scholar

Park, Kyoung-Hee (2007): “Creating a. National translation system (in Korean)”. Korea Literature Translation Institute.Search in Google Scholar

Sasaki, Yutaka (2007): “The truth of the F-measure”. https://www.cs.odu.edu/~mukka/cs795sum10dm/Lecturenotes/Day3/F-measure-YS-26Oct07.pdf [10.09.2019]Search in Google Scholar

Tan, Liling / Dehdari, Jon / van Genabith, Josef (2015): “An Awkward Disparity between BLEU / RIBES Scores and Human Judgements in Machine Translation”. Proceedings of the Workshop on Asian Translation (WAT-2015), 74–81.Search in Google Scholar

Turian, Joseph P. / Shen, Luke / Melamed, I. Dan (2003): “Evaluation of Machine Translation and its Evaluation”. Proceedings of MT Summit IX. https://apps.dtic.mil/dtic/tr/fulltext/u2/a453509.pdf [10.09.2019]Search in Google Scholar

Vermeer, Hans / Reiss, Katharina (1984): Grundlegung einer allgemeinen Translationstheorie. Tübingen: Max Niemeyer Verlag.Search in Google Scholar

Vermeiren, Hildegard / van Gucht, Jan / de Bontridder, Leentje (2009): “Standards as critical success factors in assessment”. Angelelli, Claudia, V. / Jacobson, Holly, E. (Hrsg.): Testing and assessment in translation and interpreting studies. Amsterdam/Philadelphia: John Benjamins Publishing, 297–326.10.1075/ata.xiv.14verSearch in Google Scholar

Virpioja, Sami / Grönroos Stig-Arne (2015): “LeBLEU: N-gram-based Translation Evaluation Score for Morphologically Complex Languages”. Proceedings of the Tenth Workshop on Statistical Machine Translation, 411–416.10.18653/v1/W15-3052Search in Google Scholar

Waddington, Christopher (2001a): “Should translations be assessed holistically or through error analysis?” Hermes, Journal of Linguistics 26, 15–37.10.7146/hjlcb.v14i26.25637Search in Google Scholar

Waddington, Christopher (2001b): “Different Methods of Evaluating Student Translations: The Question of Validity”. Meta 46(2), 311–325.10.7202/004583arSearch in Google Scholar

Wang, Haozhou / Merlo, Paola (2016): “Modifications of Machine Translation Evaluation Metrics by Using Word Embeddings”. Proceedings of the Sixth Workshop on Hybrid Approaches to Translation, 33–41.Search in Google Scholar

Williams, Malcom (2001): “The Application of Argumentation Theory to Translation Quality Assessment”. Meta 46(2), 326–344.10.7202/004605arSearch in Google Scholar

Wolk, Krzysztof / Koržinek, Danijel (2016): “Comparison and Adaptation of Automatic Evaluation Metrics for Quality Assessment of Re-Speaking”. https://arxiv.org/ftp/arxiv/papers/1601/1601.02789.pdfSearch in Google Scholar

Wu, Yonghui / Schuster, Mike / Chen, Zhifeng / Le, Quoc V. / Norouzi, Mohammad / Macherey, Wolfgang / Krikun, Maxim / Cao, Yuan / Gao, Qin / Macherey, Klaus / Klingner, Jeff / Shah, Apurva / Johnson, Melvin / Liu, Xiaobing / Kaiser, Łukasz / Gouws, Stephan / Kato, Yoshikiyo / Kudo, Taku / Kazawa, Hideto / Stevens, Keith / Kurian, George / Patil, Nishant / Wang, Wei / Young, Cliff / Smith, Jason / Riesa, Jason / Rudnick, Alex / Vinyals, Oriol / Corrado, Greg / Hughes, Macduff / Dean, Jeffrey (2016): „Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation”. https://arxiv.org/pdf/1609.08144.pdf [10.09.2019]Search in Google Scholar

Webseiten

CNL: http://www.centrenationaldulivre.fr/fr/portail-des-demandes-d-aides/ [10.09.2019]Search in Google Scholar

CTTIC: http://www.cttic.org/examDocs/guide.markersE.pdf [10.09.2019]Search in Google Scholar

KLTI: https://www.ltikorea.or.kr/ebooks/m/pdf/report/200712_2.pdf [10.09.2019]Search in Google Scholar

NAATI: https://www.naati.com.au/media/2231/ct_assessment_rubrics.pdf [10.09.2019]Search in Google Scholar

[Anhang] Detaillierte Ergebnisse

Tabelle 10

Korrelationen zwischen AE und ME

BLEU

Evaluator 1 – RÜ 1 Evaluator 2 – RÜ 2 Evaluator 3 – RÜ 3
Note Rangfolge Note Rangfolge Note Rangfolge
0.803** 0.806** 0.786** 0.794** 0.817** 0.745**

*p<0.05 **p<0.01 ***p<0.001

METEOR

Evaluator 1 – RÜ 1 Evaluator 2 – RÜ 2 Evaluator 3 – RÜ 3
Note Rangfolge Note Rangfolge Note Rangfolge
0.875** 0.794** 0.799** 0.770** 0.841** 0.733**

*p<0.05 **p<0.01 ***p<0.001

Tabelle 11

Intraclass correlation coefficient (drei Evaluatoren)

Evaluatoren 1-2-3
Gesamt Längere Texte Kürzere Texte Schwierige Texte Einfache Texte
N R N R N R N R N R
0.962*** 0.976*** 0.97 *** 0.969 *** 0.855*** 0.904*** 0.958 *** 0.958*** 0.949*** 0.965 ***

*p<0.05 **p<0.01 ***p<0.001 (N = Note / R = Rangfolge)

Online erschienen: 2020-05-12
Erschienen im Druck: 2020-05-06

© 2020 Walter de Gruyter GmbH, Berlin/Boston

This work is licensed under the Creative Commons Attribution 4.0 International License.

Articles in the same Issue

  1. Frontmatter
  2. Frontmatter
  3. Artikel
  4. On Translator Training in Industry-Specific Universities in China – A case study of 16 MTI programs
  5. A bit o’ footy rabbit: Some notes on football rhyming slang
  6. Linguistic structures and functions of thesis and dissertation titles in Dentistry
  7. Unlocked in translation: techniques for the translation of Spanish and British courtroom figures
  8. El estrés en la Interpretación para los Servicios Públicos: Protocolo de actuación y estrategias para la formación de intérpretes
  9. La traducción del lenguaje figurado: figuras de dicción y de pensamiento en la obra de François Villon
  10. La « compétence de la survie » du traducteur en zone de conflit : l’anxiété et la prise de décision
  11. Förderung von Perspektivenübernahme und Zielrezipientenorientierung im Translationsunterricht (deutsch – spanisch): kinderliterarische Ausgangstexte als didaktisches Instrument
  12. Automatische Evaluation der Humanübersetzung: BLEU vs. METEOR
  13. Rezensionen
  14. Kohlmayer, Rainer (2019): Literaturübersetzen. Ästhetik und Praxis. Berlin u. a.: Peter Lang. Publikationen des Fachbereichs Translations-, Sprach- und Kulturwissenschaft der Johannes Gutenberg-Universität Mainz in Germersheim 72. 213 Seiten.
  15. Annette Đurović: TRANSLATION. Wege, Theorien, Perspektiven. Belgrad: Philologische Fakultät der Universität Belgrad. 254 S. ISBN 978-86-6153-564-2
  16. Vera Elisabeth Gerling / Belén Santana López (Hrsg.): Literaturübersetzen als Reflexion und Praxis. Transfer #24. Tübingen: Narr Francke Attempto
  17. Erratum
  18. Erratum: Nadine Schimmel-Fijalkowytsch: Diskurse zur Normierung und Reform der deutschen Rechtschreibung
Downloaded on 15.1.2026 from https://www.degruyterbrill.com/document/doi/10.1515/les-2020-0009/html
Scroll to top button