Home Posedición y paridad humano-máquina en traducción automática neuronal: Un estudio empírico desde la traducción profesional
Article Open Access

Posedición y paridad humano-máquina en traducción automática neuronal: Un estudio empírico desde la traducción profesional

  • Cristina Toledo-Báez ORCID logo EMAIL logo
Published/Copyright: August 29, 2024
Become an author with De Gruyter Brill

Abstract

Albeit controversial, human-machine parity in neural machine translation has been claimed, but there is a lack of empirical studies providing concrete evidence. This article aims to present part of the results of an experiment conducted under the NEUROTRAD project where human-machine parity in neural machine translation is approached from the perspective of post-editing effort. Combining descriptive statistics, Friedman test for hypothesis testing, and Spearman correlation coefficients, our study analyses the answers to two questionnaires by 36 Spanish freelance translators in order to test 1) whether the type of translation —human, machine translation, and, as a novelty, post-edited machine translation— impacts on the perceived post-editing effort, time, and quality and 2) whether the participant’s professional experience correlates with the perceived post-editing effort, time, and quality. Results revealed that, on the one hand, the type of translation has no influence on the perceived post-editing effort (p<0.953), time (p<0.439) and quality (p<0.390) and, on the other hand, having more post-editing experience does not correlate with 1) perceived post-editing effort for post-edited machine translation (p<0.094); 2) perceived post-editing time for human translation (p<0.259) and post-edited machine translation (p<0.187) and 3) perceived translation quality for post-edited machine translation (p<0.10).

1 Introducción

La traducción automática neuronal es una realidad en el mercado profesional de la traducción en España. Tal y como recoge el Informe de Investigación DITAPE 2022 (González Pastor 2023:17), el 66 % de las empresas de traducción y el 51,1 % de los traductores autónomos encuestados en nuestro país ofrecen algún servicio de traducción automática. A este hecho contribuye un factor fundamental: la mejora de la calidad de la traducción automática neuronal, de tal suerte que surgen voces que incluso defienden que se ha alcanzado para ciertas combinaciones lingüísticas la paridad humano-máquina (Hassan et al. 2018:21ff.).

Una de las consecuencias de esta posible paridad humano-máquina en traducción automática neuronal es el hecho de reducir la labor de posedición. Definida por la norma ISO 18587:2017 como «editar y corregir el resultado de una traducción automática», la investigación más reciente en torno a la combinación traducción automática neuronal + posedición gira en torno a una plétora de temas entre los que destacan la comparación de la posedición de traducción automática neuronal con otros tipos de traducción automática (cf. Jia et al. 2019), la posedición automática (cf. Do Carmo et al. 2021) e incluso el uso de inteligencia artificial para mejorar la posedición (cf. Khasawneh/Khasawneh 2023). Sin embargo, son muy escasos los estudios en los que se aborde la posedición con estudios empíricos desde la perspectiva de la paridad humano-máquina, si bien destaca el de Fischer/Läubli (2020:253ff.), quienes, como en nuestro estudio, llevan a cabo su experimento con traductores profesionales.

Justamente, abordar la paridad humano-máquina desde la perspectiva de la posedición plantea dos cuestiones importantes. La primera es considerar si poseditar la traducción automática neuronal, dada su calidad de resultados, no es en realidad poseditar, sino otra labor más cercana a la revisión, como ya han argumentado Do Carmo/Morkens (2021:49), y que defienden autores como Daems/Macken (2021:68f.) cuando alegan que, en el mercado profesional actual, se posedita al humano y se revisa a la máquina. La segunda cuestión que entra en escena es el impacto que pueda suponer en el esfuerzo de posedición la paridad humano-máquina desde el punto de vista de la posedición. De los tres tipos de esfuerzo establecidos por Krings (2001:178ff.), a saber, técnico, temporal y cognitivo, nos centraremos en dos (temporal y cognitivo), concretamente en la percepción de los mismos, siguiendo la estela de, entre otros, los estudios de Gilbert (2022:5ff.) y Koponen (2012:181ff.).

En nuestro artículo aunaremos los elementos señalados (paridad humano-máquina en traducción automática neuronal, revisión y posedición y percepción de esfuerzo de posedición), ya que todos ellos han sido objeto de análisis en el proyecto de investigación competitivo en el seno del cual se ha desarrollado nuestra investigación: el proyecto «TRADucción automática NEUROnal y paridad humano-máquina: aspectos de evaluación y posedición (NEUROTRAD) (B1-2020_07)».. En este proyecto se ha analizado la paridad humano-máquina de la traducción automática neuronal comparando, como ya han hecho, entre otros, Daems/Macken (2021:50ff.) y Fischer/Laübli (2020:215ff.), el flujo de traducción automática neuronal + posedición con la traducción humana + revisión, pero, además, se ha añadido un tercer flujo: el flujo de traducción automática poseditada + revisión. Muy poco estudiado desde la academia aún, sí que se trata de una realidad en el mercado profesional, tal y como recoge González Pastor (2023:17), donde se indica que el 57,1 % de empresas de traducción y el 41,5 % de traductores autónomos realizan revisión de la posedición.

Empleando una metodología cualitativa y cuantitativa que combina estadística descriptiva, prueba de Friedman de contraste de hipótesis y coeficientes de correlación Rho de Spearman, el objetivo de este artículo es presentar los resultados de los dos cuestionarios completados por 36 traductores autónomos españoles en el seno del experimento de NEUROTRAD con el fin de contestar a las dos preguntas de investigación siguientes:

  1. Pregunta de investigación 1 (PI1): ¿el tipo de traducción que se posedita (automática, humana y poseditada) influye en la percepción del esfuerzo de posedición, del tiempo de posedición y de la calidad de la traducción de la persona que posedita?

  2. Pregunta de investigación 2 (PI2): ¿La experiencia de la persona que posedita se correlaciona con su percepción del esfuerzo de posedición, del tiempo de posedición y de la calidad de la traducción?

Con el fin de responder a estas dos preguntas de investigación, este artículo se ha estructurado en seis apartados. Tras el primero de ellos, la Introducción, el segundo apartado está dedicado a la revisión de estudios previos y el tercer apartado se centra en describir el experimento a partir del cual hemos obtenido nuestros datos. Le siguen el cuarto apartado, donde se especifican los resultados obtenidos y se discuten los aspectos más significativos, y el quinto apartado, en el cual damos cuenta de las conclusiones alcanzadas. Cierran el artículo el apartado de bibliografía, así como los dos anexos (A y B) donde se recogen las preguntas de los dos cuestionarios objeto de análisis.

2 Estudios previos

Como hemos adelantado en la introducción, presentaremos brevemente los estudios previos y los cimientos teóricos de tres elementos: la paridad humano-máquina en traducción automática neuronal, la revisión y posedición y la percepción del esfuerzo de posedición.

2.1 Paridad humano-máquina y traducción automática neuronal

La traducción automática neuronal es el tipo de traducción que se basa en el uso de redes neuronales artificiales que representan de forma numérica las palabras y las frases a través de vectores, empleando así técnicas de aprendizaje profundo (Sánchez Ramos/Rico Pérez 2020:15). A pesar de existir desde hace unos nueve años, este tipo de traducción automática ha desplazado a los sistemas de TA basados en estadística y en ejemplos por la alta calidad de los resultados que ofrece, de tal suerte que, cada vez más voces del ámbito de la Informática, en particular provenientes de las Conferences on Machine Translation (WMT), consideran que el nivel de precisión se asemeja al de traductores humanos. El estudio concreto de Hassan et al. (2018:21) llega más lejos al defender en el WMT18 que, a la hora de traducir noticias de chino a inglés, el traductor automático de Microsoft alcanzó el nivel de calidad de traducción humana, es decir, logró paridad humano-máquina. Es más, como apunta Gilbert (2023:90ff.), las reivindicaciones de paridad humano-máquina en las WMT se defendieron durante tres años seguidos (WMT18, WMT19 y WMT20).

Ante estas afirmaciones, no son pocos los estudios, realizados sobre todo desde la perspectiva de los Estudios de Traducción, que ponen en tela de juicio esta paridad humano-máquina, como es el caso de Poibeau (2022:6019), que incluso cuestiona el propio término en sí. Toral et al. (2018:121) hallaron que esta paridad únicamente se alcanzó en evaluación automática, no en evaluación humana. Por su parte, Läubli et al. (2018:4794) concretaron que, al replicar el estudio de Hassan et al. (2018), los resultados variaban si se evaluaban los textos al completo en lugar de oraciones aisladas. En un estudio posterior, Läubli et al. (2020:668) detectaron que la calidad en la traducción dependía principalmente de los evaluadores, la disponibilidad del contexto y la creación de traducciones de referencia, con lo que esa supuesta paridad quedaba sin confirmar. Un aspecto clave que defienden Fischer y Läubli (2020:218ff.) y que apenas se ha investigado en la literatura reciente es la comparación de la paridad humano-máquina con traductores profesionales. Aún se ha de concretar cómo se pueden beneficiar los traductores de esta supuesta paridad y, para ello, se precisan estudios que se realicen desde el ámbito de los Estudios de Traducción, tal y como es el caso del proyecto en el que se enmarca nuestro estudio, NEUROTRAD.

2.2 Revisión y posedición

A pesar de que, tanto en el aula como en el mundo profesional de la traducción, poseditar traducción automática y revisar textos traducidos se han considerado tradicionalmente procesos distintos con modelos de competencias divergentes (cf. Mossop 2020; Robert et al. 2022), en la actualidad, dada la cada vez mayor calidad de la traducción automática neuronal, la línea que distingue la posedición y la revisión es cada vez más delgada. Do Carmo/Moorkens (2021:48) argumentan que la posedición incluye labores de revisión, pero también de edición y de traducción, por lo que constituye una tarea más compleja, aunque, con frecuencia, los límites se difuminan.

Dos estudios previos al nuestro son de vital importancia. En primer lugar, el trabajo de Daems/Macken (2021:69f.), en el cual se preguntan la necesidad de continuar con la distinción entre revisión y posedición por dos motivos principales: por un lado, la evidencia previa es contradictoria en si conviene conocer el hecho de que la traducción a la que se enfrenta el poseditor es humana o automática; por otro lado, se encuentra el hecho de que, en el uso de sistemas interactivos y adaptativos de traducción asistida, la distinción entre memoria de traducción y traducción automática no es siempre clara. En segundo lugar, en el estudio de Fischer/Läubli (2020:222ff.), en el que traductores profesionales evaluaron y poseditaron tanto traducción automática como traducción humana, se determinó que los traductores poseditaron traducción humana al mismo nivel que traducción automática y tienden a evaluar los dos tipos de traducción de la misma forma.

Si bien el flujo de la traducción automática neuronal + posedición sí se ha comparado con la traducción humana + revisión en varios estudios, desconocemos, sin embargo, trabajos en los que se haya incluido, además, la traducción automática ya poseditada unida a la revisión como parte del estudio. A pesar de que, como ya apuntábamos anteriormente, la revisión de posedición se trata de una realidad en el mercado profesional español (González Pastor 2023:17), la revisión y la posedición aún cabalgan separadas en el mundo académico.

2.3 Percepción y esfuerzo de posedición

Desde la irrupción de la posedición en el mundo académico y profesional, son numerosos los estudios que se han centrado en analizar el esfuerzo de posedición (cf. Daems et al. 2017). Como estableció Krings (2001:178), el esfuerzo de posedición incluye tres dimensiones: la temporal, la técnica y la cognitiva. La primera dimensión, la temporal, se ha estudiado ampliamente en la literatura previa con el objetivo de comprobar si el tiempo de poseditar es menor al tiempo de traducir (cf. Jia et al. 2019).

La segunda dimensión es la técnica y guarda relación con las ediciones que se llevan a cabo durante la posedición de traducción automática, como son las inserciones, eliminaciones, sustituciones, movimientos, etc. (cf. Koponen 2016; Nitzke/Oster 2016). La tercera dimensión es la cognitiva, la más complicada de medir, ya que incluye todos los procesos mentales que tienen lugar mientras se está poseditando (cf. Cumbreño/Aranberri 2021). Se han propuesto diversos procedimientos para su medición como, entre otros, los Think-Aloud Protocol (Krings 2001:132), el eye tracking o seguimiento ocular (Moorkens 2018:55) y las pausas (Lacruz 2017:386ff.).

Otra forma de investigar el esfuerzo cognitivo consiste en preguntar al participante que valore la dificultad o el esfuerzo de la tarea (Koponen 2012:181ff.), lo cual se suele denominar evaluación manual o percepción de esfuerzo. Si bien son varios los autores que inciden en que esta percepción no se correlaciona correctamente con otras métricas (cf. Moorkens et al. 2015; Vieira 2016; Cumbreño/Aranberri 2021), la emplearemos en nuestro estudio basándonos, en parte, en Gilbert (2022:5ff.). De esta forma, los participantes determinarán su percepción de la tarea de posedición en cuanto al tiempo y el esfuerzo en sí. Añadimos, además, en nuestro estudio, la percepción de la calidad de la traducción, ya que, como hemos señalado anteriormente, llevamos a cabo nuestro experimento desde la perspectiva de la paridad humano-máquina en traducción automática neuronal.

3 Descripción del experimento

En este apartado explicaremos el diseño y organización del experimento, los materiales y el procedimiento, los cuestionarios, los participantes y, por último, el análisis de los datos.

3.1 Diseño y organización del experimento

En este apartado daremos cuenta del diseño del experimento, la selección textual y la preparación del entorno del experimento. Comenzamos el experimento seleccionando tres noticias de la Agencia Europea del Medicamento (EMA, por sus siglas en inglés), de aproximadamente la misma extensión (300 palabras): el texto 1 abordaba una reunión de alto nivel de la International Coalition of Medicines Regulatory Authorities (ICMRA)[1], el segundo sobre la evaluación de la dosis de refuerzo de la vacuna Janssen contra la covid-19[2] y el tercero sobre el Día Europeo para el Uso Prudente de los Antibióticos[3]. Los tres textos comparten una extensión similar (en torno a 270 palabras cada uno) y se publicaron en la página de la EMA entre noviembre y diciembre de 2021.

Una vez seleccionados los textos, el siguiente paso era traducirlos, por un lado, de forma automática y, por otro, por un/a traductor/a profesional. En cuanto a la traducción profesional, se optó por una traductora autónoma con más de diez años de experiencia a la que se indicó expresamente que no usara ni traducción automática ni posedición para los tres textos. Esta traductora autónoma no colaboró en el proyecto en ninguna otra tarea posteriormente.

Respecto a la traducción automática, dos anotadores del proyecto NEUROTRAD, tomando la traducción humana como referencia y empleando una taxonomía propia a partir de la métrica DQF-MQM[4], evaluaron la traducción de las tres noticias ofrecida por tres motores: DeepL[5] en su versión gratuita, Traductor de Google[6] y un motor de traducción automática neuronal entrenado en la Universitat Oberta de Catalunya[7]. Finalmente, se eligió el traductor automático DeepL por ofrecer un menor número de errores, en concreto 41 en total, que los otros dos traductores automáticos con los que se comparó, ya que el motor entrenado arrojó 58 errores y Traductor de Google, 47. Tras la traducción automática de los tres textos con DeepL, se solicitó a una poseditora profesional con más de cinco años de experiencia en el sector que poseditase la traducción automática. Esta poseditora no colaboró en el proyecto en ninguna otra tarea posteriormente.

Una vez que los tres textos estaban traducidos de forma profesional, traducidos de forma automática con DeepL y traducidos de forma automática con DeepL y poseditados, se procedió a organizar los textos del experimento. Se pretendía que, de forma aleatoria, todos los participantes trabajasen con un texto traducido de forma automática, un texto traducido de forma automática y poseditado y un texto traducido de forma profesional. Para ello, se organizaron los textos siguiendo el orden presentado en la tabla 1, donde TA es traducción automática, TH, traducción humana y TA PE, traducción automática poseditada. A cada participante le fue asignando una combinación de textos de forma aleatoria, por riguroso orden de participación en el experimento.

Tab. 1:

Organización de los textos del experimento

PARTICIPANTE TEXTO 1 TEXTO 2 TEXTO 3
P1 TA TH TA PE
P2 TA TA PE TH
P3 TH TA PE TA
P4 TH TA TA PE
P5 TA PE TH TA
P6 TA PE TA TH

3.2 Materiales y procedimiento

En cuanto a los materiales empleados, cabe apuntar que, siguiendo la estela de otros experimentos desarrollados en el Center for Research and Innovation in Translation and Translation Technology (CRITT)[8] de la Universidad de Kent (Estados Unidos), centro con el cual colaboramos para el proyecto NEUROTRAD, se usaron principalmente cuatro materiales: Trados Studio 2019[9], el plug-in Qualitivity[10], el software para acceso remoto TeamViewer[11] y los dos cuestionarios detallados en este artículo (véanse apartado 3.3. y Anexos A y B). Tanto Trados Studio 2019 como el plug-in de Qualitivity se instalaron en el ordenador del experimento y a los participantes se les facilitó el acceso remoto al escritorio de dicho ordenador mediante TeamViewer.

Los experimentos se desarrollaron entre diciembre de 2022 y abril de 2023 y el orden de los pasos que realizaron todos los participantes del experimento fue el siguiente:

  1. Aceptaban participar firmando el consentimiento informado (detallado en Anexo A) y se concretaba un día y una hora concretos para la realización del experimento a través de la herramienta de calendario en línea Doodle. El experimento se desarrolló de forma individual y con franjas individuales concretas para cada participante.

  2. Antes de participar en el experimento, los participantes completaban el cuestionario preexperimental (Anexo A), disponible en Google Forms, y se les facilitó las instrucciones del experimento tanto en forma de vídeo como por escrito. En dichas instrucciones se especificaba que los textos poseditados tenían que alcanzar una calidad que los convirtiese en publicables, es decir, en noticias en español que la EMA pudiese publicar en su página sin ninguna modificación posterior.

  3. En el día y hora señalados para el experimento, los participantes se conectaban al ordenador del experimento de forma remota empleando TeamViewer. Una vez dentro de Trados Studio 2019 y con el plug-in de Qualitivity activado, se les pedía a los participantes que poseditasen las tres traducciones presentadas. Al tratarse de un estudio ciego, no se les indicó a los participantes en ningún momento que estaban trabajando con diversos tipos de traducciones. Los participantes podían consultar todos los recursos necesarios en Internet y no contaban con restricciones de tiempo.

  4. Cuando finalizaban el experimento, los participantes completaban el cuestionario posexperimental (Anexo B), disponible también en Google Forms.

  5. Por último, mediante presentación de factura, se abonaba la gratificación contemplada para cada participante.

Quisiéramos mencionar en este punto que el hecho de haber llevado a cabo un estudio ciego en el que no se mencionó a los participantes con qué tipo de traducción estaban trabajando (automática, humana y traducción automática poseditada) puede suponer una limitación del estudio o un aspecto debatible. Defendemos la postura tomada en nuestro estudio basándonos en: 1) estudios previos que han realizado un procedimiento similar (Daems/Macken 2021:52ff.; Fischer/Läubli 2020:215ff.) y 2) en encuestas previas (Cadwell et al. 2018:301ff.) donde se ha demostrado que los traductores profesionales tienden a tener percepciones negativas sobre traducción automática. Nuestra manipulación experimental y la organización del estudio ciego se basa en intentar dar el mismo rigor de posedición a los tres tipos de traducciones. Somos conscientes de que, al dar la instrucción a los participantes de que «tienen que poseditar para alcanzar una calidad de texto publicable», las personas que poseditan consideran que están trabajando en los tres textos con traducción automática neuronal y que, por tanto, realizan el experimento con el sesgo de la traducción automática.

3.3 Cuestionarios

Como se ha señalado anteriormente, se administraron a los 36 participantes dos tipos de cuestionarios: uno preexperimental, centrado en determinar tanto información personal y lingüística como información académica y profesional, y otro posexperimental en el que se les pedía que determinasen su percepción sobre esfuerzo de posedición, tiempo de posedición y calidad de la traducción automática para los tres textos. En el Anexo A se detallan las 28 preguntas del cuestionario preexperimental y en el Anexo B, las 16 del cuestionario posexperimental. En este artículo nos centraremos concretamente en analizar las respuestas a las preguntas 3, 4, 5, 6, 12, 13, 14, 15, 17, 18, 20, 21 del cuestionario preexperimental y a las preguntas de la 1 al 11 del cuestionario posexperimental.

3.4 Participantes

En el experimento participaron 36 traductores pertenecientes todos ellos a la Asociación Española de Traductores, Correctores e Intérpretes (Asetrad). Se les contactó mediante correos electrónicos y diversas convocatorias privadas. Es necesario mencionar que, a la hora de seleccionar los participantes, 1) no se tuvo en cuenta la especialización de los mismos, ya que los textos, al tratarse de noticias de la EMA, son divulgativos; 2) no se requería experiencia previa profesional en posedición, aunque era deseable y 3) se exigía que los participantes conocieran Trados Studio, dado que se trata de un programa de traducción asistida complejo que se ha de conocer para que el experimento tenga éxito y no suponga una dificultad añadida.

Apuntamos a continuación información sobre la muestra de participantes a partir de los datos arrojados por el cuestionario preexperimental. La muestra se compone mayoritariamente de mujeres, suponiendo estas más de tres cuartos del total (77,8 %) frente a solo un 19,4 % de hombres. Existe un único caso de persona que se identifica como no binaria. Esto indica un sesgo en el estudio en términos de sexo, que, en principio, no debería afectar al análisis, ya que no es una de las variables de interés.

Los 36 participantes son de nacionalidad española, y, de ellos, 35 (97,2 %) ejercen su labor profesional en España frente a una única persona que la ejerce en Reino Unido. La lengua materna mayoritaria es el español, hablada por los 36 participantes. Además, seis de ellos (16,7 %) hablan catalán, uno valenciano (2,8 %) y otro gallego (2,8 %). Observamos que la lengua extranjera 1 (LE1) más común es el inglés, hablado por 32 participantes (88,9 %), seguida del francés (8,3 %) y, finalmente, el alemán (2,8 %).

En lo que respecta a la formación de grado o licenciatura, 28 participantes ostentan una Licenciatura o Grado en Traducción e Interpretación (77,8 %), mientras que seis alegan tener una Licenciatura o Grado en Estudios Ingleses o Filología Inglesa (16,9 %), uno un Grado en Lenguas Modernas y sus Literaturas (2,78 %) y uno un Grado en Lengua y Literatura españolas (2,78 %). Respecto de la formación de posgrado, 17 de ellos han cursado un Máster en Traducción e Interpretación (47,22 %), uno un Máster en Interpretación de conferencias (2,78 %), uno un Máster en Lingüística Aplicada (2,78 %), uno un Máster en Edición y Comercialización del libro (2,78 %) y uno un Máster en Enseñanza de español para extranjeros (2,78 %). Destaca también en formación de posgrado que dos participantes (5,56 %) hayan cursado un Doctorado en Traducción e Interpretación.

En cuanto a su experiencia profesional, todos han ejercido como traductores autónomos, si bien 13 también han desempeñado funciones como becario/a en prácticas (36,1 %), 11 como traductor/a en plantilla en una empresa/agencia de traducción (30,6 %), seis como actividad complementaria u ocasional (16,7 %), dos han tenido otro puesto en proveedores de servicios lingüísticos (5,6 %), dos como traductor/a en una institución u organismo (5,6 %) y dos como docente en cursos de traducción literaria y jurídica (5,6 %). Respecto al volumen de trabajo, nos centraremos en los datos relacionados con la posedición. 13 participantes poseditan más de 30 000 palabras al año (36,1 %), ocho poseditan más de 100 000 palabras (22,2 %), cuatro menos de 200.000 palabras (11,1 %), cuatro menos de 50 000 palabras (11,1 %), tres menos de 30 000 palabras (8,3 %), dos más de 200 000 palabras (5,6 %) y dos 0 palabras (5,6 %). Por tanto, solo dos participantes no han poseditado de forma profesional (5,5 %), frente a 34 que sí lo han hecho (94,4 %). Decidimos mantener a estos dos participantes sin experiencia por tres motivos principales: ambos sí tenían experiencia en posedición no profesional, contaban con formación en posedición y sus datos podrían ser de interés en futuras réplicas o líneas de investigación del estudio.

3.5 Análisis de los datos

En este apartado detallaremos cómo se ha llevado a cabo el análisis de los datos. En primer lugar, se ha realizado un análisis descriptivo de las variables de ambas encuestas. Para las variables cuantitativas, este análisis incluye las medidas de centralidad (media y mediana), dispersión (desviación estándar, rango e IQR o rango intercuartílico) y los resultados de las pruebas de normalidad. Para las variables cualitativas, se presentan las frecuencias absolutas y relativas de cada categoría.

A la hora de estructurar el análisis, se han reorganizado las respuestas de percepción de esfuerzo, tiempo y calidad de los tres textos para formar nuevas variables que representen la percepción de esfuerzo, tiempo y calidad de los tres tipos de posedición: traducción humana (TH), traducción automática (TA) y traducción automática con posedición (TA PE).

En lo que respecta a la pregunta de investigación 1 (PI1), se ha comparado la percepción de esfuerzo, tiempo y calidad de los tres tipos de posedición. Para ello se han empleado pruebas de Friedman de muestras pareadas (no paramétricas). En lo que atañe a la pregunta de investigación 2 (PI2), se ha evaluado la relación entre los años de experiencia profesional y la percepción de las traducciones automáticas analizando las correlaciones entre variables mediante coeficientes de correlación Rho de Spearman (no paramétricos). En todas estas pruebas estadísticas inferenciales, se considera significación cuando p < 0,05 (n. c. 5 % habitual) y alta significación cuando p < 0,01 (n. c. 1 %). Se puede considerar casi significación, o tendencia hacia ella, cuando p<0,10 (<10 %).

Por último, cabe mencionar que el análisis estadístico se ha efectuado con el programa IBM-SPSS Statistics versión 25.

4 Resultados y discusión

En primer lugar, presentaremos y discutiremos los resultados para la PI1, es decir, la percepción de esfuerzo, tiempo y calidad de los tres tipos de posedición, para, seguidamente, hacer lo propio con los resultados para la PI2, esto es, los resultados que aluden a la relación entre los años de experiencia profesional y la percepción de las traducciones automática.

4.1 Resultados y discusión de la PI1: Percepción de esfuerzo de posedición, tiempo de posedición y calidad de la traducción

Comenzamos este apartado con la estadística descriptiva, que tiene dos partes: una primera parte de análisis descriptivo de las variables cualitativas y una segunda parte en la que presentamos el análisis descriptivo de las variables cuantitativas y aquellas a las que se le puede dar un tratamiento cuantitativo. Seguidamente, mediante la prueba de Friedman, llevaremos a cabo tres contrastes de hipótesis para medidas pareadas correspondientes a las variables de esfuerzo, tiempo y calidad. Finalizaremos el apartado discutiendo los resultados para responder a la PI1.

En cuanto al análisis descriptivo de las variables cualitativas, en la tabla 2 se muestra la percepción de esfuerzo de posedición de las tres modalidades (TH para traducción humana, TA para traducción automática y TA PE para traducción automática poseditada). Tal y como podemos apreciar, no existen grandes diferencias entre las tres, ya que las frecuencias son prácticamente idénticas. Esto apuntaría a que la percepción del esfuerzo necesario para llevar a cabo la posedición es comparable en los tres tipos de traducción. La mitad de los participantes aproximadamente considera que la posedición conllevó «un poco de esfuerzo», en concreto, el 55,6 % tanto para la TH como para la TA PE y un 61,1 % para la TA. Por lo tanto, poseditar la TA les ha supuesto un esfuerzo algo mayor que las otras dos, pero no constituye una diferencia significativa. La explicación más plausible a este comportamiento es que los participantes tienden a valorar que poseditar supone poco esfuerzo, independientemente del esfuerzo real realizado.

Tab.2:

Tabla de frecuencias de la variable de esfuerzo de posedición

Respuesta Frecuencia

absoluta
Frecuencia

relativa
Frecuencia relativa acumulada
Esfuerzo TH
Ningún esfuerzo 4 11,1 % 11,1 %
Un poco de esfuerzo 20 55,6 % 66,7 %
Un esfuerzo moderado 10 27,8 % 94,4 %
Bastante esfuerzo 2 5,6 % 100,0 %
Esfuerzo TA
Ningún esfuerzo 4 11,1 % 11,1 %
Un poco de esfuerzo 22 61,1 % 72,2 %
Un esfuerzo moderado 7 19,4 % 91,7 %
Bastante esfuerzo 3 8,3 % 100,0 %
Esfuerzo TA PE
Ningún esfuerzo 4 11,1 % 11,1 %
Un poco de esfuerzo 20 55,6 % 66,7 %
Un esfuerzo moderado 11 30,6 % 97,2 %
Bastante esfuerzo 1 2,8 % 100,0 %

Tal y como recoge la tabla 3, tampoco se observan grandes diferencias en el tiempo necesario para la posedición. En los tres casos, la mayoría de los participantes consideró que el ejercicio llevó «poco tiempo», en concreto, un 66,7 % para la TH, 72,2 % para TA y 61,1 % para TA PE. De nuevo, esto apunta a que la labor de posedición es similar en términos de percepción de tiempo invertido independientemente de la modalidad de traducción y también independientemente del tiempo real invertido.

Sin embargo, son peculiares los datos sobre el tiempo de la TH, ya que siete participantes (19,4 %) han considerado que poseditar esta traducción supone «bastante tiempo», una cifra superior a los cuatro participantes (11,1 %) que han considerado que suponía la misma percepción de esfuerzo para poseditar TA y TA PE.

Tab.3:

Tabla de frecuencias de la variable tiempo de posedición

Respuesta Frecuencia

absoluta
Frecuencia

relativa
Frecuencia relativa acumulada
Tiempo TH
Muy poco tiempo 5 13,9 % 13.9 %
Poco tiempo 24 66,7 % 80,6 %
Bastante tiempo 7 19,4 % 100,0 %
Tiempo TA
Muy poco tiempo 6 16,7 % 16,7 %
Poco tiempo 26 72,2 % 88,9 %
Bastante tiempo 4 11,1 % 100,0 %
Tiempo TA PE
Muy poco tiempo 9 25,0 % 25,0 %
Poco tiempo 22 61,1 % 86,1 %
Bastante tiempo 4 11,1 % 97,2 %
Mucho tiempo 1 2,8 % 100,0 %

Encontramos un escenario similar al analizar la calidad de las traducciones. No se aprecian diferencias entre las tres modalidades y, de nuevo, en los tres casos, la mayoría de los participantes valoró el texto como «traducción con algunos errores y algunos aciertos». Específicamente, el 61,1 % para la calidad de la TH, 52,8 % para TA y 63,9 % para TA PE. Además, arroja cifras prácticamente iguales el número de participantes que ha clasificado como «traducción sin apenas errores y muchos aciertos»: 13 (36,1 %) para TH y 12 (33,3 %) tanto para TA como TA PE. Sí se constata que son más los participantes que han catalogado como «traducción con bastantes errores y algunos aciertos» la TA; en concreto, cinco de ellos (13,9 %), mientras que solo uno (2,8 %) para TH y TA PE.

Tab.4:

Tabla de frecuencias de las variables sobre calidad de los distintos tipos de posedición

Respuesta Frecuencia

absoluta
Frecuencia

relativa
Frecuencia relativa acumulada
Calidad TH
Traducción sin apenas errores y muchos aciertos 13 6,1 % 36,1 %
Traducción con algunos errores y algunos aciertos 22 61,1 % 97,2 %
Traducción con bastantes errores y algunos aciertos 1 2,8 % 100,0 %
Calidad TA
Traducción sin apenas errores y muchos aciertos 12 33,3 % 33,3 %
Traducción con algunos errores y algunos aciertos 19 52,8 % 86,1 %
Traducción con bastantes errores y algunos aciertos 5 13,9 % 100,0 %
Calidad TA PE
Traducción sin apenas errores y muchos aciertos 12 33,3 % 33,3 %
Traducción con algunos errores y algunos aciertos 23 63,9 % 97,2 %
Traducción con bastantes errores y algunos aciertos 1 2,8 % 100,0 %

A continuación, pasamos a mostrar el análisis descriptivo de las variables cuantitativas y aquellas a las que se le puede dar un tratamiento cuantitativo. En la tabla 5 se muestran las variables analizadas y se comprueba que todas ellas presentan desvíos significativos dentro de la normalidad. Como ya se vio en el análisis cualitativo, las valoraciones de esfuerzo, tiempo y calidad de los textos son prácticamente idénticas entre los tres tipos de traducción. En este caso, observamos una gran similaridad de las medidas de centralidad (media y mediana) que nos estaría indicando que la modalidad de posedición no influye en el esfuerzo, tiempo o calidad percibidos.

Tab.5:

Estadísticos descriptivos y pruebas de normalidad para las variables del cuestionario posexperimental

Variable (nº de observaciones) Exploración: Forma Centralidad Variabilidad
Asimetría Curtosis Valor de

p normal
Media Mediana Mín/Máx Desv. Est. IQR
Esfuerzo TA (36) 0,72 0,60 0,000* 2,25 2,00 1,00 / 4,00 0,77 1
Esfuerzo TH (36) 0,39 0,22 0,000* 2,28 2,00 1,00 / 4,00 0,74 1
Esfuerzo TA PE (36) 0,17 0,09 0,000* 2,25 2,00 1,00 / 4,00 0,69 1
Tiempo TA (36) -0,07 0,86 0,000* 1,94 2,00 1,00 / 3,00 0,53 0
Tiempo TH (36) 0 0,19 0,000* 2,06 2,00 1,00 / 3,00 0,58 0
Tiempo TA PE (36) 0,66 1,27 0,000* 1,92 2,00 1,00 / 4,00 0,69 0,75
Calidad TH (36) -0,13 -0,78 0,287NS 1,67 2,00 1,00 / 3,00 0,53 1,00
Calidad TA (36) 0,24 -0,68 0,000* 1,81 2,00 1,00 / 3,00 0,67 1,00
Calidad TA PE (36) -0,24 -0,64 0,000* 1,69 2,00 1,00 / 3,00 0,52 1,00
NS Desvío no significativo, la variable se distribuye normalmente * Significativo, la variable no se distribuye normalmente.

Cuando n >50 el test de normalidad utilizado es Kolmogorov-Smirnov, cuando n<50 se emplea Shapiro-Wilk.

Finalizamos con tres contrastes de hipótesis para medidas pareadas: uno para el esfuerzo, otro para el tiempo y otro para la calidad. Dado que las variables se desvían de la normalidad, se emplea la prueba de Friedman (no paramétrica). Tal y como esperábamos y como se recoge en la tabla 6, no se encuentran diferencias estadísticamente significativas entre los tres tipos de posedición, ni en esfuerzo (p < 0,953), ni en tiempo (p < 0,439) ni en calidad (p < 0,390). Por tanto, podemos concluir (al menos con los datos de los que disponemos) que las tres modalidades ofrecen resultados comparables.

Tab. 6:

Resultados de los contrastes de hipótesis no paramétricos de los grupos según tipo de posedición con la prueba de Friedman

Grupos Variable Estadístico Valor de p Resultado
1. TH Esfuerzo 0,10NS 0,953 No significativo
2. TA Tiempo 1,64NS 0,439 No significativo
3. TA PE Calidad 1,89NS 0,390 No significativo
NS No significativo. Casi significativo. * Significativo. ** Altamente significativo.

Tras presentar los resultados, iniciaremos la discusión tratando de responder a la PI1, que era la siguiente: ¿el tipo de traducción que se posedita (automática, humana y poseditada) influye en la percepción del esfuerzo de posedición, del tiempo de posedición y de la calidad de la traducción de la persona que posedita?

A la luz de los resultados obtenidos, los datos indican que el tipo de traducción que se posedita (automática, humana y poseditada) no influye en las tres variables analizadas, es decir, percepción del esfuerzo de posedición, del tiempo de posedición y de la calidad de la traducción. El análisis cualitativo ha dejado patente que las valoraciones de esfuerzo, tiempo y calidad de los textos son prácticamente idénticas entre los tres tipos de traducción. El análisis cuantitativo, a su vez, ha demostrado una gran similaridad de las medidas de centralidad (media y mediana) que nos indica que la modalidad de posedición no influye en el esfuerzo, tiempo o calidad percibidos. Y, por último, la prueba de Friedman ha resuelto que no se encuentran diferencias estadísticamente significativas entre los tres tipos de posedición, ni en esfuerzo, ni en tiempo ni en calidad.

A tenor de lo que arrojan nuestros datos, podemos afirmar que los tres tipos de traducción empleadas (TA, TA PE y TH) han obtenido datos muy similares en las tres percepciones analizadas (esfuerzo de posedición, tiempo de posedición y calidad de la traducción) por lo que, en las condiciones de nuestro estudio y desde el punto de vista exclusivamente de la percepción de los participantes, podemos afirmar que existe paridad humano-máquina en cuanto a calidad de la traducción, tiempo de posedición y esfuerzo de posedición entre TA, TA PE y TH. Sin embargo, este dato habría que confirmarlo con el análisis de los textos poseditados resultantes del experimento y correlacionarlo con las otras dos dimensiones del esfuerzo de Krings (2001), a saber, esfuerzo temporal y esfuerzo técnico.

4.2 Resultados y discusión de la PI2: Correlación de la experiencia con percepción de esfuerzo de posedición, tiempo de posedición y calidad de la traducción

Para determinar si existe una relación estadística entre los años de experiencia profesional y la percepción de la traducción automática, se ha llevado a cabo un análisis de correlaciones. Dado que las variables en estudio presentan desvíos significativos de la normalidad, se ha optado por emplear coeficientes de correlación Rho de Spearman (no paramétricos). Dichos coeficientes se muestran en la tabla 7, junto a su correspondiente valor de p y la interpretación del resultado.

Tal y como se esperaba, la experiencia correlaciona de manera inversa y altamente significativa con el esfuerzo (p < 0,007) y tiempo de posedición (p < 0,030) de los tres textos. Evidentemente, la práctica continuada del trabajo de posedición hace que la tarea sea más rápida y llevadera.

Al analizar los textos por separado, comprobamos que la experiencia correlaciona de manera inversa con el tiempo de posedición del texto 1 (p < 0,037), el esfuerzo de posedición del texto 2 (p < 0,006), la percepción de la calidad del texto 2 (p < 0,035) y el esfuerzo de posedición del texto 3 (p < 0,015). No obstante, los resultados más interesantes para el estudio son los de percepción de esfuerzo, tiempo y calidad según el tipo de traducción poseditada, y no según el texto. En este aspecto, constatamos que una mayor experiencia se relaciona con un menor esfuerzo de posedición de los textos de TH (p < 0,008) y TA (p< 0,047), mientras que no apreciamos esta relación con el esfuerzo de posedición de los de TA PE (p < 0,094). Es decir, los textos TA PE equiparan a los traductores más experimentados con aquellos que carecen de tanto bagaje profesional.

Tab. 7:

Coeficientes de correlación Rho de Spearman

Variable Coeficiente Valor de p Resultado
18. Años de experiencia 1,000 0,000 Alt. significativo
1. Esfuerzo de poseditar los tres textos. -0,451** 0,007 Alt. significativo
2. Tiempo de poseditar los tres textos. -0,383* 0,030 Significativo
3. Esfuerzo de posedición del texto 1. -0,270NS 0,123 No significativo
4. Tiempo de posedición del texto 1. -,0360* 0,037 Significativo
5. Calidad de la traducción del texto 1. -0,265NS 0,130 No significativo
6. Esfuerzo de posedición del texto 2. -0,464** 0,006 Alt. significativo
7. Tiempo de posedición del texto 2. -0,239NS 0,173 No significativo
8. Calidad de la traducción del texto 2. -0,362* 0,035 Significativo
9. Esfuerzo de posedición del texto 3. -0,415* 0,015 Significativo
10. Tiempo de posedición del texto 3. -0,253NS 0,149 No significativo
11. Calidad de la traducción del texto 3. -0,218NS 0,215 No significativo
12. Grado de satisfacción con la calidad

de los textos traducidos.
-0,464** 0,006 Alt. significativo
Esfuerzo TH -0,446** 0,008 Alt. significativo
Esfuerzo TA -0,344* 0,047 Significativo
Esfuerzo TA PE -0,292NS 0,094 No significativo
Tiempo TH -0,199NS 0,259 No significativo
Tiempo TA -0,392* 0,022 Significativo
Tiempo TA PE -0,232NS 0,187 No significativo
Calidad TH -0,229NS 0,193 No significativo
Calidad TA -0,185NS 0,296 No significativo
Calidad TA PE -0,436* 0,010 Significativo
NS No significativo. Casi significativo. * Significativo. ** Altamente significativo.

En cuanto al tiempo, comprobamos que correlaciona inversamente con la experiencia en los textos de TA (p < 0,022), es decir, cuando aumenta la experiencia, disminuye el tiempo de posedición de TA, pero este fenómeno no se produce con la posedición de TH (p < 0,259) y TA PE (p < 0,187).

La calidad percibida en los textos TH (p < 0,193) y TA (p < 0,296) no parece depender de la experiencia. Sin embargo, sí encontramos una relación inversa en los textos TA PE (p < 0,10). Esto indica que los traductores experimentados perciben que los textos de TA PE tienen menos calidad que los textos que corresponden a TH y a TA.

Tras presentar los resultados sobre la correlación de la experiencia, estamos en disposición de responder a la PI2, que era la siguiente: ¿La experiencia de la persona que posedita se correlaciona con su percepción del esfuerzo de posedición, del tiempo de posedición y de la calidad de la traducción? Los datos nos indican que:

  1. Una mayor experiencia se relaciona con un menor esfuerzo de posedición de los textos de la TH y TA, pero no de la TA PE. A pesar de que, a priori, una traducción poseditada debería requerir menos esfuerzo de posedición que una traducción automática para un traductor con experiencia, no ha sido así en nuestro experimento. Por intentar explicar este fenómeno, convendría evaluar la calidad de la traducción y el número de errores de la TA PE respecto a la TH y la TA y comprobar si han podido repercutir en la percepción del esfuerzo de posedición.

  2. El tiempo de posedición se correlaciona inversamente con la experiencia únicamente en la posedición de TA, pero no en la posedición de TH y TA PE. En nuestro experimento, los traductores más experimentados han poseditado en menos tiempo únicamente la TA, pero no la TH ni la TA PE. Sorprenden estos datos porque, en principio, lo esperable sería, justamente, que tanto la TH como la TA PE se poseditasen en menos tiempo que la TA. La explicación a este hecho puede deberse a que los traductores, ante una traducción con menos errores como es el caso de la TH y la TA PE, han invertido más tiempo en buscar posibles errores que fuese necesario poseditar. La traducción automática neuronal ofrece errores que, a veces, pueden pasar desapercibidos y los traductores han podido centrarse en buscar errores de forma más concienzuda.

  3. Existe una relación inversa en la calidad percibida de la TA PE, pero no de la TA y TH. Los traductores con más experiencia consideran que la calidad de la TA PE es inferior a la calidad de la TA y la TH. De nuevo, convendría evaluar la calidad de la TA PE y comprobar si esta calidad ha podido repercutir en la percepción del esfuerzo de posedición.

Consideramos relevante señalar que, de los tres tipos de traducción analizados, es la TA PE la que obtiene resultados negativos en las tres variables analizadas (percepción del esfuerzo de posedición, del tiempo de posedición y de la calidad de la traducción). De nuevo, en aras de tratar de hallar una explicación para tal fenómeno, convendría correlacionar estos datos de la TA PE con las otras dos dimensiones del esfuerzo de Krings (2001), a saber, esfuerzo temporal y esfuerzo técnico.

5 Conclusiones

Defendida con vehemencia desde el ámbito de la Informática, pero cuestionada sin piedad desde los Estudios de Traducción, la paridad humano-máquina en traducción automática neuronal precisa de estudios empíricos que confirmen si es una realidad y que detallen sus posibles características. El estudio aquí presentado, llevado a cabo en el seno del proyecto NEUROTRAD, ha abordado la paridad humano-máquina desde un punto de vista cuantitativo y cualitativo aunándola con, por un lado, la posedición y, por otro, la percepción de esfuerzo y la calidad de la traducción. Además, el proyecto tiene la particularidad de haber añadido el flujo traducción automática poseditada + revisión, existente en el mercado profesional pero aún escasamente investigado, al flujo de traducción automática neuronal + posedición y al flujo de traducción humana + revisión.

Los experimentos del proyecto tuvieron lugar entre diciembre de 2022 y abril de 2023. En ellos, 36 traductores autónomos pertenecientes a la Asociación Española de Traductores, Correctores e Intérpretes (Asetrad) poseditaron tres tipos de traducciones (traducción automática, traducción automática poseditada y traducción humana) empleando Trados Studio 2019 y el plug-in Qualitivity. Al tratarse de un estudio ciego, los participantes desconocían el tipo de traducción a la que se estaban enfrentando y se les indicó que los textos poseditados tenían que alcanzar un nivel de calidad que los convirtiese en textos publicables. Cada participante poseditó tres textos: uno proveniente de la traducción automática, otro de la traducción humana y otro de la traducción automática poseditada. Además de poseditar los tres textos, los participantes completaron dos cuestionarios: uno prexperimental (Anexo A), centrado en determinar tanto información personal y lingüística como información académica y profesional, y otro posexperimental (Anexo B), en el que se les pedía que determinasen su percepción sobre esfuerzo de posedición, tiempo de posedición y calidad de la traducción automática para los tres textos.

Tomando como base los cuestionarios preexperimental y posexperimental completados por los 36 participantes antes y después de la realización del experimento, el objetivo de nuestro trabajo era dar respuesta a las dos preguntas de investigación planteadas. La primera de ellas consistía en tratar de responder si el tipo de traducción que se posedita (automática, humana y poseditada) influye en la percepción del esfuerzo de posedición, el tiempo de posedición y la calidad de la traducción de la persona que posedita. Tras el análisis descriptivo de las variables cualitativas y cuantitativas y llevar a cabo la prueba de Friedman de contraste de hipótesis para medidas pareadas, los datos nos indican que el tipo de traducción que se posedita (automática, humana y poseditada) no influye en las tres variables analizadas, es decir, percepción del esfuerzo de posedición, del tiempo de posedición y de la calidad de la traducción. En lo que atañe al esfuerzo de posedición en particular, estos resultados son similares a los alcanzados por Gilbert (2022:73), si bien, como señalan otros autores (cf. Moorkens et al. 2015; Vieira 2016; Cumbreño/Aranberri 2021) resulta imprescindible contrastarla con otros datos que se desprendan del análisis de las otras dos dimensiones del esfuerzo de Krings (2001), a saber, esfuerzo temporal y esfuerzo técnico.

La segunda pregunta de investigación se centraba en plantear si la experiencia de la persona que posedita se correlaciona con su percepción del esfuerzo de posedición, del tiempo de posedición y de la calidad de la traducción. Tras llevar a cabo un análisis de correlaciones mediante el coeficiente de correlación Rho de Spearman, se han alcanzado las siguientes conclusiones:

  1. La experiencia del traductor correlaciona con un menor esfuerzo al poseditar textos traducidos, ya sea por humanos o máquinas. Sin embargo, cuando se trata de textos de TA PE, el grado de experiencia no parece influir significativamente en la percepción del esfuerzo.

  2. El tiempo empleado en la posedición de textos TA disminuye conforme aumenta la experiencia del traductor.

  3. La calidad percibida en los textos de TH y TA no muestra variaciones significativas en función de la experiencia del traductor. No obstante, en los textos TA PE, los traductores con más experiencia tienden a evaluar su calidad de manera más crítica.

En relación con la experiencia de la persona que posedita, el tipo de traducción que ha obtenido los resultados más negativos ha sido la TA PE y la que ha obtenido los resultados más positivos ha sido la TA.

Somos conscientes de las limitaciones de nuestro trabajo, sobre todo por haber realizado un estudio ciego en el que no se mencionó a los participantes con qué tipo de traducción estaban trabajando (automática, humana y automática poseditada). Como se ha explicado anteriormente, optamos por indicar en las instrucciones a los participantes que tendrían que poseditar traducción automática a un nivel que fuese publicable, con lo que los participantes pensaban que estaban poseditando traducción automática neuronal en los tres textos con los que trabajaban. Precisamente desde la limitación de ser un estudio ciego, consideramos que una posible línea de investigación futura sería replicar el estudio, pero especificando a los participantes qué traducción están poseditando. De esta forma, se podría comprobar si el conocer a qué tipo de traducción se enfrenta la persona que posedita guarda relación con la percepción de esfuerzo y de calidad y si, además, se correlaciona con la experiencia.

Otras limitaciones importantes de nuestro trabajo tienen relación con las características de los participantes; en concreto, con el hecho de que no todos los participantes tenían experiencia previa en posedición y también que no se tuvo en cuenta su ámbito de especialización. En cuanto a la experiencia previa en posedición, solo dos participantes no han poseditado de forma profesional (5,5 %) frente a 34 que sí lo han hecho (94,4 %) y sería interesante analizar los datos de estos participantes más concienzudamente. Respecto al ámbito de especialización, presumimos que los resultados variarían si se seleccionaran participantes que trabajasen con frecuencia con textos médicos, con lo que este elemento se podría estudiar en una futura réplica del estudio.

En cuanto a otras futuras líneas de investigación de nuestro trabajo, proponemos dos enfoques que están relacionados con el hecho de que los participantes pensaban que trabajaban todo el tiempo con traducción automática neuronal. El primero de ellos tiene que ver con el hecho de que los participantes hayan podido corregir errores de traducción que no lo eran y, de esta forma, se haya producido el fenómeno de over-editing o sobreposedición (cf. O’Hagan 2019). El segundo de ellos es el hecho de comprobar si los textos poseditados resultantes del experimento se hayan podido ver influenciados por el fenómeno del priming en traducción automática neuronal (cf. Pham et al. 2020), es decir, que la calidad del texto poseditado final, se vea comprometida por la influencia del texto origen, que es una traducción automática. Nos marcamos como futura línea de investigación analizar los textos poseditados del experimento para confirmar con datos empíricos si se producen estos dos fenómenos.

Otras futuras líneas de investigación que pueden surgir de nuestro trabajo es replicar el estudio con tres nuevos parámetros: el tipo de texto, la direccionalidad y la combinación lingüística. En nuestro estudio hemos empleado noticias de la EMA, con lo que se trataban de textos divulgativos o semiespecializados del ámbito médico. Sería interesante comprobar si se obtienen datos similares con textos de mayor especialización o de otro tipo o género textual. Asimismo, nuestra direccionalidad de traducción ha sido de inglés a español y consideramos relevante replicar el estudio en la direccionalidad español-inglés, así como en otras combinaciones lingüísticas en las que, siguiendo las mismas conclusiones que Poibeau (2022), la traducción automática neuronal no presente resultados tan satisfactorios ni se plantee por asomo la posible existencia de una paridad humano-máquina.

En esta era de supremacía tecnológica, inteligencia artificial e industria 4.0, consideramos que la investigación en paridad humano-máquina no ha hecho más que empezar. Estamos seguras de que nos encontramos ante un nuevo paradigma que, lejos de perjudicar la traducción-posedición profesional, debería valer para hacer reivindicar, en su justa medida, la necesaria perpetuación del imprescindible factor humano en toda actividad lingüística. Confiemos en que así sea.


Acknowledgment

This article has been carried out in the framework of the following research projects: NEUROTRAD (B1-2020_07), GAMETRAPP (TED2021-129789B-I00/ AEI/10.13039/501100011033/ Unión Europea NextGenerationEU/PRTR), VIP II (PID2020-112818GB-I00/AEI/10.13039/501100011033), TRADUTEACH (PIE22-14), RECOVER (ProyExcel_00540), T2T (D5-2023_14) and DIFARMA (HUM106-G-FEDER).


Referencias bibliográficas

Cadwell, Patrick/O’Brien, Sharon/Teixeira, Carlos C. S. (2018): Resistance and accommodation: Factors for the (non-)adoption of machine translation among professional translators. Perspectives 26(3), 301–321. https://doi.org/10.1080/0907676X.2017.1337210.10.1080/0907676X.2017.1337210Search in Google Scholar

Cumbreño, Cristina/Aranberri, Nora (2021): What do you say? Comparison of metrics for post-editing effort. En: Carl, Michael (Ed.): Explorations in empirical translation process research. Cham: Springer, 57–79. https://doi.org/10.1007/978-3-030-69777-8.10.1007/978-3-030-69777-8_3Search in Google Scholar

Daems, Joke/Macken, Lieve (2021): Post-editing human translations and revising machine translations. Impact on efficiency and quality. En: Koponen, Maarit/Mossop, Brian/Robert, Isabelle S./Scocchera, Giovanna (Eds.): Translation revision and post-editing. Industry practices and cognitive processes. Nueva York: Routledge, 50–69. https://doi.org/10.4324/9781003096962.10.4324/9781003096962-5Search in Google Scholar

Daems, Joke/Vandepitte, Sonia/Hartsuiker, Robert J./Macken, Lieve (2017): Identifying the machine translation error types with the greatest impact on post-editing effort. Frontiers in psychology 8:1282, 1–15. http://dx.doi.org/10.3389/fpsyg.2017.01282.10.3389/fpsyg.2017.01282Search in Google Scholar

Do Carmo, Félix/Moorkens, Joss (2021): Differentiating editing, post-editing and revision. En: Koponen, Maarit/Mossop, Brian/Robert, Isabelle S./Scocchera, Giovanna (Eds.): Translation revision and post-editing. Industry practices and cognitive processes. Nueva York: Routledge, 35–49. https://doi.org/10.4324/9781003096962.10.4324/9781003096962-4Search in Google Scholar

Do Carmo, Félix/Shterionov, Dimitar/Moorkens, Joss/Wagner, Joachim/Hossari, Murhaf/Paquin, Eric/Schmidtke, Dag/Groves, Declan/Way, Andy (2021): A review of the state-of-the-art in automatic post-editing. Machine Translation 35, 101–143. https://doi.org/10.1007/s10590-020-09252-y.10.1007/s10590-020-09252-ySearch in Google Scholar

Fischer, Lukas/Läubli, Samuel (2020): What’s the difference between professional human and machine translation? A blind multi-language study on domain-specific MT. En: Martins, André/Moniz, Helena/Fumega, Sara/Martins, Bruno/Batista, Fernando/Coheur, Luisa/Parra, Carla/Trancoso, Isabel/Turchi, Marco/Bisazza, Arianna/Moorkens, Joss/Guerberof, Ana/Nurminen, Mary/Marg, Lena/Forcada, Mikel L. (Eds.): Proceedings of the 22nd annual conference of the European Association for Machine Translation. Portugal: European Association for Machine Translation, 215–224. https://aclanthology.org/2020.eamt-1.pdf (17.05.2024).Search in Google Scholar

Gilbert, Devin (2022): Directing post-editors' attention to machine translation output that needs editing through an enhanced user interface: Viability and automatic application via a word-level translation accuracy indicator. Universidad de Kent, Ohio: Tesis doctoral.Search in Google Scholar

Gilbert, Devin (2023): Recent claims of human-machine parity in translation highlight core issues surrounding the human evaluation of machine translation. En: Lacruz, Isabel (Ed.): Translation in transition: Human and machine intelligence. Ámsterdam: Benjamins, 83–103.10.1075/ata.xx.05gilSearch in Google Scholar

González Pastor, Diana (Ed.) (2023): El impacto de la traducción automática en la traducción profesional en España: tendencias, retos y aspectos socioprofesionales. El proyecto DITAPE. Fráncfort: Lang.10.3726/b19935Search in Google Scholar

Hassan, Hany/Aue, Anthony/Chen, Chang/Chowdhary, Vishal/Clark, Jonathan/Federmann, Christian/Huang, Xuedong/Junczys-Dowmunt, Marcin/Lewis, William/Mu, Li/Shujie, Liu/Tao, Qin/Frank, Seide/Xu, Tan/Fei, Tian/Lijun, Wu/Shuangzhi, Wu/Yingce, Xia/Dongdong, Zhang/Zhirui, Zhang/Ming, Zhou (2018): Achieving human parity on automatic Chinese to English news translation. arXiv preprint 1803.05567. https://arxiv.org/abs/1803.05567 (17.05.2024).Search in Google Scholar

Jia, Yanfang/Carl, Michael/Wang, Xiangling (2019): Post-editing neural machine translation versus phrase-based machine translation for English-Chinese. Machine Translation 33, 9–29. https://doi.org/10.1007/s10590-019-09229–6.10.1007/s10590-019-09229-6Search in Google Scholar

Khasawneh, Mohamad A.S./Khasawneh, Yusra J.A. (2023): The use of artificial intelligence in improving machine translation post-editing. Insights from translation editors. Journal of Namibian studies: History politics culture 34, 7123–7146. https://doi.org/10.59670/jns.v34i.2940.Search in Google Scholar

Koponen, Maarit (2012): Comparing human perceptions of post-editing effort with post-editing operations. En: Callison-Burch, Chris/Koehn, Philipp/Monz, Christof/Post, Matt/Soricut, Radu/Specia, Lucia (Eds.): Proceedings of the seventh workshop on statistical machine translation. Montréal: Association for Computational Linguistics, 181–190. https://aclanthology.org/W12–31.pdf (17.05.2024).Search in Google Scholar

Koponen, Maarit (2016): Machine translation post-editing and effort: Empirical studies on the post-editing process. Universidad de Helsinki: tesis doctoral. Search in Google Scholar

Krings, Hans P. (2001): Repairing texts: Empirical investigations of machine translation post-editing processes. Kent: State University Press.Search in Google Scholar

Lacruz, Isabel (2017): Cognitive effort in translation, editing and post-editing. En: Schwieter, John/Ferreira, Aline (Eds.): Handbook of translation and cognition. Malden: Wiley & Sons, 386–401.10.1002/9781119241485.ch21Search in Google Scholar

Läubli, Samuel/Castilho, Sheila/Neubig, Graham/Sennrich, Rico/Shen, Qinlan/Toral, Antonio (2020): A set of recommendations for assessing human-machine parity in language translation. Journal of Artificial Intelligence Research 67, 653–672. https://arxiv.org/pdf/2004.01694.pdf (17.05.2024).10.1613/jair.1.11371Search in Google Scholar

Läubli, Samuel/Sennrich, Rico/Volk, Martin (2018): Has machine translation achieved human parity? A case for document-level evaluation. En: Riloff, Ellen/Chiang, David/Hockenmaier, Julia/Tsujii, Jun’ichi (Eds.): Proceedings of the 2018 conference on empirical methods in natural language processing. Bruselas: Association for Computational Linguistics, 4791–4796. https://aclanthology.org/D18–1000 (17.05.2024).10.18653/v1/D18-1512Search in Google Scholar

Moorkens, Joss/O’Brien, Sharon/da Silva, Igor A. L./Fonseca, Norma B. de Lima/Alves, Fabio (2015): Correlations of perceived post-editing effort with measurements of actual effort. Machine Translation 29, 267–284. https://doi.org/10.1007/s10590-015-9175–2.10.1007/s10590-015-9175-2Search in Google Scholar

Moorkens, Joss (2018): Eye-tracking as a measure of cognitive effort for post-editing of machine translation. En: Walker, Callum/Federici, Federico (Eds): Eye tracking and multidisciplinary studies on translation. Ámsterdam: Benjamins, 55–69. 10.1075/btl.143.04mooSearch in Google Scholar

Mossop, Brian (2020): Revising and editing for translators. Nueva York: Routledge. https://doi.org/10.4324/9781315158990.10.4324/9781315158990Search in Google Scholar

Nitzke, Jean/Oster, Katharina (2016): Comparing translation and post-editing: An annotation schema for activity units. En: Carl, Michael/Bangalore, Srinivas/Schaeffer, Moritz (Eds.): New directions in empirical translation process research. Londres: Springer, 293–308.10.1007/978-3-319-20358-4_14Search in Google Scholar

O’Hagan, Minako (2019): The Routledge handbook of translation and technology. Nueva York: Routledge.10.4324/9781315311258Search in Google Scholar

Pham, Minh Q./Xu, Jitao/Crego, Josep-Maria/Senellart, Jean/Yvon, François (2020): Priming neural machine translation. En: Barrault, Loïc/Bojar, Ondřej/Bougares, Fethi/Chatterjee, Rajen/Costa-jussà, Marta R./Federmann, Christian/Fishel, Mark/Fraser, Alexander/Graham, Yvette/Guzman, Paco/Haddow, Barry/Huck, Matthias/Jimeno Yepes, Antonio/Koehn, Philipp/Martins, André/Morishita, Makoto/Monz, Christof/Nagata, Masaaki/Nakazawa, Toshiaki/Negri, Matteo (Eds.): Proceedings of the fifth conference on machine translation. Association for Computational Linguistics, 516–527.Search in Google Scholar

Poibeau, Thierry (2022): On «Human Parity» and «Super Human Performance» in machine translation evaluation. En: Calzolari, Nicoletta/Béchet, Frédéric/Blache, Philippe/Choukri, Khalid/Cieri, Christopher/Declerck, Thierry/Goggi, Sara/Isahara, Hitoshi/Maegaard, Bente/Mariani, Joseph/Mazo, Heléne/Odijk, Jan/Piperidis, Stelios (Eds.): Proceedings of the thirteenth language resources and evaluation conference. European Language Resources Association, 6018–6023. Search in Google Scholar

Robert, Isabelle S./Schrijver, Iris/Ureel, Jim J. (2022): Measuring translation revision competence and post-editing competence in translation trainees: Methodological issues. Perspectives 30, 1–15. https://doi.org/10.1080/0907676X.2022.2030377.10.1080/0907676X.2022.2030377Search in Google Scholar

Sánchez Ramos, María del Mar/Rico Pérez, Celia (2020): Traducción automática. Conceptos clave, procesos de evaluación y técnicas de posedición. Granada: Comares.Search in Google Scholar

Toral, Antonio/Castilho, Sheila/Hu, Ke/Way, Andy (2018): Attaining the unattainable? Reassessing claims of human parity in neural machine translation. En: Bojar, Ondřej/Chatterjee, Rajen/Federmann, Christian/Fishel, Mark/Graham, Yvette/Haddow, Barry/Huck, Matthias/Jimeno Yepes, Antonio/Koehn, Philipp/Monz, Christof/Negri, Matteo/Névéol, Aurélie/Neves, Mariana/Post, Matt/Specia, Lucia/Turchi, Marco/Verspoor, Karin (Eds.): Proceedings of the third conference on machine translation: Research papers. Bruselas: Association for Computational Linguistics, 113–123. https://doi.org/10.18653/v1/W18–6312.10.18653/v1/W18-6312Search in Google Scholar

Vieira, Lucas N. (2016): How do measures of cognitive effort relate to each other? A multivariate analysis of post-editing process data. Machine Translation 30, 41–62. https://doi.org/10.1007/s10590-016-9188–5.10.1007/s10590-016-9188-5Search in Google Scholar

Norma citada

UNE-ISO 18587:2020 (2017): Servicios de traducción. Posedición del resultado de una traducción automática. Requisitos. Madrid: AENOR. Search in Google Scholar

Anexo A

DECLARACIÓN DE CONSENTIMIENTO INFORMADO

  1. Manifiesto que he leído y entendido la información proporcionada, que he hecho las preguntas que me surgieron sobre el proyecto y que he recibido información suficiente sobre el mismo.

  2. Comprendo que mi participación es totalmente voluntaria, que puedo retirarme del estudio cuando quiera sin tener que dar explicaciones.

  3. Presto libremente mi conformidad para participar en el Proyecto de Investigación titulado NEUROTRAD.

Correo:

En caso de aceptar el consentimiento informado, facilite a continuación su nombre completo, apellidos, DNI y correo electrónico:

¿Acepta el consentimiento informado para participar en el experimento del proyecto NEUROTRAD?

No

Estoy interesado/a en participar en el experimento tal y como se me ha explicado:

No

A continuación, conteste al siguiente cuestionario preexperimental.

I. INFORMACIÓN PERSONAL Y LINGÜÍSTICA

  1. Fecha de nacimiento

  2. Sexo

  3. Nacionalidad

  4. País donde ejerce su labor profesional

  5. ¿Cuál es su(s) lengua(s) materna(s)? (indique más de una si procede)

  6. ¿Cuál es su primera lengua extranjera (en adelante LE1)?

  7. Indique los años de estudio de LE1 (en número arábigo)

  8. ¿Qué grado de dificultad le suponen las siguientes destrezas en su LE1?

Ninguna dificultad Algo de dificultad Mucha dificultad No me considero competente
Expresión oral
Comprensión oral
Interacción oral
Expresión escrita
Comprensión escrita
  1. Si tiene una segunda lengua extranjera (en adelante LE2), indique cuál.

  2. Indique los años de estudio de la LE2 (en número arábigo)

  3. ¿Qué grado de dificultad le suponen las siguientes destrezas en su LE2?

Ninguna dificultad Algo de dificultad Mucha dificultad No me considero competente
Expresión oral
Comprensión oral
Interacción oral
Expresión escrita
Comprensión escrita

II. INFORMACIÓN ACADÉMICA Y PROFESIONAL

  1. Titulación o titulaciones que posee.

  2. ¿Trabaja o ha trabajado como traductor/a profesional?

  3. Si es o ha sido traductor/a profesional, indique en qué régimen.

  4. Indique en cifra arábiga su número de años de experiencia como traductor/a profesional

  5. ¿A qué lengua ha realizado tareas de traducción?

  6. ¿Anteriormente ha poseditado de forma profesional?

  7. Indique en cifra arábiga su número de años de experiencia en posedición [si carece de experiencia, escriba 0]

  8. ¿A qué lengua ha realizado tareas de posedición?

  9. Estime cuántas palabras al año:

0 <10.000 <30.000 <50.000 <100.000 <200.000 >200.000
Traduce
Revisa
Posedita
  1. ¿Qué tipo de formación ha recibido en posedición?

  2. Si no ha recibido ninguna formación en posedición, ¿le gustaría poder hacerlo?

  3. ¿Considera que en cualquier grado en Traducción e Interpretación se han de contemplar asignaturas que formen en posedición?

  4. ¿Considera que en cualquier programa de máster en traducción se han de contemplar asignaturas que formen en posedición?

  5. En las tareas de posedición que realiza o que ha realizado, ¿qué motor de traducción automática es el más frecuentemente empleado para generar las traducciones automáticas?

  6. En su experiencia, ¿cómo presupuesta o factura la posedición?

  7. Teniendo en cuenta su experiencia en posedición, ¿qué afirmación le representa mejor?– La posedición ha mejorado mucho mi productividad.– La posedición ha mejorado bastante mi productividad.– La posedición ha mejorado un poco mi productividad.– La posedición no ha mejorado mi productividad.– No cuento con la suficiente experiencia en posedición para responder a esta pregunta.– Otro.

  8. ¿Qué experiencia tiene con Trados Studio?

Anexo B

  1. Valore el esfuerzo que le ha supuesto poseditar los tres textos.– Ningún esfuerzo– Un poco de esfuerzo– Un esfuerzo moderado– Bastante esfuerzo– Mucho esfuerzo

  2. Valore el tiempo que le ha supuesto poseditar los tres textos.– Muy poco tiempo– Poco tiempo– Bastante tiempo– Mucho tiempo

  3. En cuanto al texto 1 (el texto sobre ICMRA), valore el esfuerzo que le ha supuesto poseditar.– Ningún esfuerzo– Un poco de esfuerzo– Un esfuerzo moderado– Bastante esfuerzo– Mucho esfuerzo

  4. Respecto al texto 1, valore el tiempo que le ha supuesto poseditarlo.– Muy poco tiempo– Poco tiempo– Bastante tiempo– Mucho tiempo

  5. Haga una valoración general de la calidad de la traducción del texto 1– Traducción sin apenas errores y muchos aciertos– Traducción con algunos errores y algunos aciertos– Traducción con bastantes errores y algunos aciertos– Traducción con muchos errores y apenas aciertos– Traducción sin apenas aciertos

  6. En cuanto al texto 2 (el texto sobre la vacuna Janssen), valore el esfuerzo que le ha supuesto poseditar.– Ningún esfuerzo– Un poco de esfuerzo– Un esfuerzo moderado– Bastante esfuerzo– Mucho esfuerzo

  7. Respecto al texto 2, valore el tiempo que le ha supuesto poseditarlo.– Muy poco tiempo– Poco tiempo– Bastante tiempo– Mucho tiempo

  8. Haga una valoración general de la calidad de la traducción del texto 2– Traducción sin apenas errores y muchos aciertos– Traducción con algunos errores y algunos aciertos– Traducción con bastantes errores y algunos aciertos– Traducción con muchos errores y apenas aciertos– Traducción sin apenas aciertos

  9. En cuanto al texto 3 (el texto sobre antibióticos), valore el esfuerzo que le ha supuesto poseditar.– Ningún esfuerzo– Un poco de esfuerzo– Un esfuerzo moderado– Bastante esfuerzo– Mucho esfuerzo

  10. Respecto al texto 3, valore el tiempo que le ha supuesto poseditarlo.– Muy poco tiempo– Poco tiempo– Bastante tiempo– Mucho tiempo

  11. Haga una valoración general de la calidad de la traducción del texto 3– Traducción sin apenas errores y muchos aciertos– Traducción con algunos errores y algunos aciertos– Traducción con bastantes errores y algunos aciertos– Traducción con muchos errores y apenas aciertos– Traducción sin apenas aciertos

  12. Según su criterio profesional, indique su grado de satisfacción, en términos generales, con la calidad de los textos traducidos de forma automática en la combinación inglés-español.– Muy satisfecho/a (el resultado es de muy buena calidad)– Bastante satisfecho/a (el resultado es de buena calidad)– Poco satisfecho/a (el resultado es de calidad suficiente)– Nada satisfecho (el resultado es de mala calidad)

  13. En su opinión, en la combinación lingüística inglés-español, ¿la traducción automática está cerca de alcanzar una calidad similar a la traducción profesional hecha por traductores/as?– Está lejos– Está cerca– Está muy cerca– Ya la ha alcanzado

  14. ¿Considera que poseditar debería considerarse como una modalidad dentro de la traducción?– Sí– No

  15. En cuanto al experimento que ha realizado, ¿le gustaría participar en otros similares en el futuro?– Sí– No

  16. Le dejamos un espacio en blanco para que realice cualquier apreciación sobre el experimento o sobre cualquier aspecto de la traducción automática o la posedición que le interese.

Published Online: 2024-08-29
Published in Print: 2024-11-06

© 2024 the author(s), published by Walter de Gruyter GmbH, Berlin/Boston

This work is licensed under the Creative Commons Attribution 4.0 International License.

Downloaded on 9.9.2025 from https://www.degruyterbrill.com/document/doi/10.1515/les-2024-0003/html
Scroll to top button