Blog Cyberjustice - Traduction automatique et LLM : la révolution silencieuse de la langue

Depuis plus de soixante-dix ans, la traduction automatique est un rêve d’informaticien. Des premiers systèmes statistiques aux réseaux neuronaux, les progrès se sont accélérés au point qu’elle fait désormais partie du quotidien des chercheurs, des étudiants et du grand public. Avec l’arrivée des grands modèles de langage (LLM) comme GPT-4 ou Claude, ce domaine connaît une transformation profonde : la traduction n’est plus seulement un transfert mot à mot, mais devient contextuelle, stylistique, presque humaine.

Cet article propose un état des lieux de cette évolution, en comparant les forces et limites des outils spécialisés (DeepL, Google Translate…) et des LLM, et en explorant les défis qui restent à relever pour en faire des outils fiables et éthiques dans le cadre universitaire.

De la traduction statistique aux LLM : une brève histoire

Jusqu’aux années 2010, la traduction automatique reposait sur des modèles statistiques. Ces systèmes analysaient de vastes corpus bilingues et alignaient les séquences de mots selon leurs cooccurrences. Les résultats, souvent rigides et peu naturels, traduisaient plus une mécanique d’association qu’une véritable compréhension du texte.

Avec l’arrivée des réseaux neuronaux puis de l’architecture Transformer en 2017, on est passé à la traduction neuronale (NMT). Ces modèles séquence-à-séquence sont capables d’encoder le sens d’une phrase et de le restituer dans une autre langue. Les traductions sont devenues plus fluides, plus idiomatiques, plus proches du langage naturel.

Depuis 2020, les grands modèles de langage comme GPT, Claude, Mistral ou Gemini vont encore plus loin. Entraînés sur d’immenses volumes de textes multilingues, ils ne se limitent plus à la traduction : ils accomplissent toutes sortes de tâches linguistiques. Leur polyvalence leur permet d’intégrer style, ton, contexte culturel et même explications. La traduction devient alors l’un des effets secondaires d’une compétence plus large de compréhension et de génération du langage.

Forces et faiblesses : outils spécialisés et LLM

Les études comparatives montrent que la traduction neuronale spécialisée garde un avantage en termes de fiabilité brute, tandis que les LLM se distinguent par leur souplesse et leur style. Dans les domaines techniques ou médicaux, les moteurs spécialisés comme DeepL produisent en général des traductions plus constantes et exactes, notamment sur les terminologies complexes. Une étude sur l’ontologie du phénotype humain montre ainsi que DeepL et GPT-3.5 obtiennent de très bonnes notes, mais que DeepL reste légèrement plus fiable sur les termes spécialisés.

En revanche, lorsqu’il s’agit d’adapter le style et le ton d’un texte, les LLM excellent. Ils produisent des traductions plus naturelles et plus cohérentes dans des contextes créatifs, marketing ou institutionnels. Là où un outil spécialisé traduit littéralement, un LLM peut reformuler et préserver l’intention ou la persuasion du texte original.

La question des langues rares révèle aussi des différences. Les systèmes commerciaux ont encore des lacunes sur les langues peu représentées, mais les LLM montrent un potentiel pour mieux les gérer grâce à leur entraînement massif, même si la qualité reste variable et que les biais culturels persistent. Dans des contextes très formels ou techniques, les traductions des LLM peuvent aussi demander plus de corrections, tandis que les outils spécialisés produisent des sorties plus homogènes mais moins souples stylistiquement. En pratique, les deux approches se complètent : un texte traduit par un LLM peut bénéficier d’une post-édition humaine pour ajuster la terminologie, et un moteur spécialisé peut être enrichi par les capacités contextuelles d’un LLM.

Les défis à relever

Malgré ces progrès spectaculaires, plusieurs enjeux persistent. Les biais linguistiques et culturels, qu’il s’agisse de la traduction du genre, des stéréotypes ou des expressions idiomatiques intraduisibles, demeurent. Les systèmes reproduisent les biais présents dans leurs corpus d’entraînement, et les LLM n’y échappent pas.

La fiabilité sémantique constitue un autre défi majeur : un LLM peut produire une traduction fluide mais sémantiquement fausse, phénomène souvent désigné par le terme « hallucination ». Dans des contextes sensibles comme le médical ou le juridique, ces erreurs peuvent avoir des conséquences sérieuses.

L’évaluation de la qualité reste également complexe. Les métriques automatiques comme BLEU ou COMET ne capturent pas toujours le style, la sensibilité culturelle ou la nuance. L’évaluation humaine demeure indispensable pour les traductions critiques. Enfin, la question de la propriété et des données d’entraînement se pose avec acuité : les corpus utilisés peuvent inclure du contenu protégé, ce qui soulève des interrogations sur les licences, le respect des droits d’auteur et la confidentialité des documents soumis aux plateformes.

Bonnes pratiques dans les milieux académiques et professionnels

Dans un contexte universitaire ou de recherche, quelques précautions permettent de tirer parti de ces outils tout en minimisant les risques. Pour les documents techniques, scientifiques ou réglementaires, les outils spécialisés restent souvent préférables, ou l’usage des LLM doit être strictement encadré. Lorsqu’on a recours à un LLM, il est essentiel de soigner le « prompting » en donnant des instructions claires sur le style, le ton et la terminologie attendus.

Combiner traduction automatique et post-édition humaine garantit une meilleure qualité et fiabilité. Il convient également de vérifier la politique de confidentialité des plateformes utilisées afin d’éviter de divulguer des données sensibles, et de former les personnels et les étudiants aux limites de ces outils ainsi qu’aux enjeux éthiques et juridiques.

Conclusion

La traduction automatique et les LLM convergent progressivement. Les modèles spécialisés restent la référence en matière de précision terminologique et technique, tandis que les LLM apportent une intelligence contextuelle et stylistique inédite. Dans l’environnement universitaire, la meilleure stratégie semble être l’hybridation : choisir l’outil selon le type de texte, combiner avec une relecture humaine et rester vigilant sur les biais et la protection des données. C’est à ce prix que la révolution silencieuse de la traduction automatique pourra tenir ses promesses.

Joao Pedro de Alcântara Bastos

Master 2 Cyberjustice 2024/2025

Sources

Chen & Lin (2025), A multidimensional comparison of ChatGPT, Google Translate, and DeepL in Chinese tourism texts translation: fidelity, fluency, cultural sensitivity, and persuasiveness. Frontiers in Artificial Intelligence. https://www.frontiersin.org/journals/artificial-intelligence/articles/10.3389/frai.2025.1619489/full
Noll et al. (2025), Assessing GPT and DeepL for terminology translation in the medical domain: A comparative study on the human phenotype ontology. BMC Medical Informatics and Decision Making. https://bmcmedinformdecismak.biomedcentral.com/articles/10.1186/s12911-025-03075-8
Machine Translation vs. AI Translation. Key Differences, Janus Worldwide. https://janusww.com/publications/machine-translation-vs-ai-translation-what-is-difference/
Leveraging Large Language Models for Machine Translation, arXiv, avril 2025. https://arxiv.org/html/2504.01919v1
DeepL’s next-gen language model outperforms ChatGPT-4, Google…, DeepL Blog, 16 juillet 2024. https://www.deepl.com/en/blog/next-gen-language-model
DeepL vs LLMs for Translation — Vincent Schmalbach Blog. https://www.vincentschmalbach.com/deepl-vs-llms-for-translation/