Machine Translation grounded in traditional commentaries

Grounding Translation in Commentaries

Why do we need this?

Machine Translation is not very reliable for many reasons such as:

  • it lacks general understanding of texts,
  • it reproduces issues inherited from bad translations in the training data
  • it doesn’t justify its comprehension of the text.

Basic Translation Prompt

Translate the following:
ཇི་ལྟར་མཐོང་ཐོས་ཤེས་པ་དག །
འདིར་ནི་དགག་པར་བྱ་མིན་ཏེ། །
འདིར་ནི་སྡུག་བསྔལ་རྒྱུར་གྱུར་པ། །
བདེན་པར་རྟོག་པ་བཟློག་བྱ་ཡིན། །

Claude Sonnet Answer

This appears to be a verse in Classical Tibetan, likely from a Buddhist philosophical text. Here’s the translation:
“What is seen, heard, and known
Is not to be negated here.
What is to be reversed here is
The conception of truth as a cause of suffering.”

LLMs get the last sentence wrong nearly every time. The meaning of the verse 3 and 4 is that we need to overcome our tendency to think of these experiences as being truly real, since that misconception causes suffering.

Looking for a solution

We can make MT more reliable by grounding it in authoritative references such as traditional commentaries. Since LLMs generate tokens based on the “context” or previous tokens, asking the LLM to translate commentaries and to summarize them will provide correct context that will positively influence the translation task.

Prompt with Chain of Thoughts:

Here's a stanza in Tibetan and three commentaries. Give me the following: 

A. a translation of each commentary,
B. A combined commentary explanation sentence by sentence, 
C. a word by word gloss (list formatted as <word> - <gloss>),
D. a plain English translation,
E. a literal translation in stanza, 
F. a fluent translation in stanza.

Format the output in MD.

Text: ཇི་ལྟར་མཐོང་ཐོས་ཤེས་པ་དག ། འདིར་ནི་དགག་པར་བྱ་མིན་ཏེ། ། འདིར་ནི་སྡུག་བསྔལ་རྒྱུར་གྱུར་པ། ། བདེན་པར་རྟོག་པ་བཟློག་བྱ་ཡིན། །

Commentary 1: ཇི་ལྟར་མཐོང་ཐོས་དང་ཤེས་པ་འདི་དག་མ་བརྟག་ཉམ་དགའ་ཙམ་གྱི་དབང་དུ་བྱས་ཏེ་བརྗོད་ན་ནི།འདིར་ནི་དགག་པར་བྱ་བ་མིན་ཏེ་དེ་དག་དགག་མི་ནུས་ལ་དགག་ཀྱང་མི་དགོས་པའི་ཕྱིར། འོ་ན་ཅི་ཞིག་འགོག་ཅེ་ན། འདིར་ནི་སྔུག་བསྔལ་གྱི་རྒྱུར་གྱུར་པ་དངོས་པོ་ཀུན་ལ་དེར་ཞེན་གྱི་བདེན་པར་རྟོག་པ་བཟློག་བྱ་ཡིན་ནོ། །འདིར་མཐོང་བ་མངོན་སུམ་དང༌། ཐོས་པ་གང་ཟག་གཞན་ལས་དང༌། ཤེས་པ་རྗེས་དཔག་ཚད་མའི་སྒོ་ནས་བཞག་པའི་ཐ་སྙད་ལ་འགྲེལ་ བས་བཤད་དོ། །

Commentary 2: འདི་ལྟར་ཞེས་བྱ་བ་ལ་སོགས་པ་སྨོས་ཏེ། མཐོང་བ་དང་ཐོས་པ་ལ་སོགས་པ་ཀུན་རྫོབ་ནི་འདིར་མི་འགོག་པའི་ཕྱིར་དང་། འོ་ན་འདིར་ཅི་ཞིག་འགོག་སྙམ་པ་ལ། འདིར་ནི་ཞེས་བྱ་བ་ལ་སོགས་པ་སྨོས་ཏེ། འདི་ནི་སྡུག་བསྔལ་ཐམས་ཅད་འབྱུང་བའི་རྒྱུ་དངོས་པོར་ཞེན་པ་དགག་པའི་ཕྱིར། ཡང་དག་པའི་རང་བཞིན་འགོག་གོ་སྙམ་དུ་བསམས་པའོ།

Commentary 3: གལ་ཏེ་དེ་ལྟར་ན་ཡང་ཤེས་པ་རིག་པ་མེད་ན་དེ་ཇི་ལྟར་མཐོང་ངོ་འདི་ཐོས་སོ་འདི་ཤེས་སོ་ཞེས་བྱ་བའི་ཐ་སྙད་དུ་འགྱུར་རོ་ཞེ་ན། ཇི་ལྟར་ཞེས་བྱ་བ་ལ་སོགས་པ་གསུངས་སོ། ། མཐོང་བ་ལ་སོགས་པའི་ཐ་སྙད་དག་འཇིག་རྟེན་འདིར་དགག་པར་བྱ་བ་མ་ཡིན་པ་དེ་ཁོ་ནའོ། ། འོན་ཀྱང་འདིར་ནི་འཁོར་བའི་སྡུག་བསྔལ་མ་ལུས་པའི་རྒྱུར་འགྱུར་བའི་དངོས་པོར་ཀུན་རྟོག་པ་ནི་གདོན་ཆེན་པོས་བདེན་པ་ཉིད་དུ་སྒྲོ་བཏགས་པ་བྱས་པ་གང་ཡིན་པ་དེ་དགག་པར་བྱ་བ་ཡིན་པས་སྐྱོན་མེད་དོ། ། གཞན་ཡང་ཁྱོད་ཀྱིས་ཇི་སྐད་དུ། གལ་ཏེ་འཁྲུལ་པ་ཡང་མེད་ན། ། ཞེས་བྱ་བ་ལ་སོགས་པ་བརྗོད་པ་དེ་ལ་ཡང་བརྗོད་པར་བྱ་སྟེ།```

Claude Sonnet Answer:

I’ll help break this down comprehensively. Let me analyze and translate this material systematically.

A. Translation of Commentaries

Commentary 1:

“When discussing these experiences of seeing, hearing, and knowing merely in terms of their unconsidered, superficial aspects, they are not to be negated here, as they cannot and need not be negated. Then what is being negated? Here, what is to be reversed is the conception of truth that clings to all phenomena as being true, which becomes the cause of suffering. Here, the commentary explains the conventional designations established through direct perception (seeing), learning from others (hearing), and valid inference (knowing).”

Commentary 2:

“This is stated thus and so forth: Because conventional [reality] of seeing, hearing, and so forth is not negated here, and in response to wondering ‘Then what is being negated here?’, it is stated ‘Here…’ and so forth. It is intended to mean that the true nature is negated in order to negate the clinging to things as real, which is the cause of all suffering.”

Commentary 3:

“If so, then if there is no consciousness or awareness, how could there be conventional expressions such as ‘this is seen,’ ‘this is heard,’ ‘this is known’? Thus it is stated ‘Just as…’ and so forth. The conventional designations of seeing and so forth are indeed not to be negated in this world. However, here what is to be negated is the superimposition of truth by the great demon of conceptualizing things as truly existent, which becomes the cause of all samsaric suffering. Thus there is no fault. Furthermore, regarding what you stated about ‘If there were also no delusion…’ and so forth…”

B. Combined Commentary Explanation

  1. “ཇི་ལྟར་མཐོང་ཐོས་ཤེས་པ་དག །”
  • The conventional experiences of seeing, hearing, and knowing as they appear in everyday life are being discussed.
  • These are understood through direct perception, verbal testimony, and inference respectively.
  1. “འདིར་ནི་དགག་པར་བྱ་མིན་ཏེ། །”
  • These conventional experiences themselves are not what needs to be negated
  • They are valid on the conventional level and serve a practical purpose
  1. “འདིར་ནི་སྡུག་བསྔལ་རྒྱུར་གྱུར་པ། །”
  • What actually needs to be addressed is that which becomes a cause of suffering
  • This refers to our conceptual overlay onto these experiences
  1. “བདེན་པར་རྟོག་པ་བཟློག་བྱ་ཡིན། །”
  • The target of negation is specifically the conception that grasps at these phenomena as truly existent
  • This grasping at true existence is what needs to be reversed

C. Word by Word Gloss

ཇི་ལྟར་ - just as, however
མཐོང་ - seeing
ཐོས་ - hearing
ཤེས་པ་ - knowing
དག - plural marker
འདིར་ - here
ནི་ - topic marker
དགག་པར་ - to negate
བྱ་ - to do
མིན་ - is not
ཏེ་ - and, but
སྡུག་བསྔལ་ - suffering
རྒྱུར་ - as cause
གྱུར་པ་ - become
བདེན་པར་ - as true
རྟོག་པ་ - conception
བཟློག་བྱ་ - to be reversed
ཡིན་ - is

D. Plain English Translation

“We’re not trying to deny our basic experiences of seeing, hearing, and knowing things. Rather, what we need to overcome is our tendency to think of these experiences as being truly real, since that misconception causes suffering.”

E. Literal Translation (Stanza)

Whatever is seen, heard, and known,
Here is not to be negated indeed;
Here, that which becomes cause of suffering,
Conceiving as true is to be reversed.

F. Fluent Translation (Stanza)

Our senses perceive the world around,
These experiences we need not deny;
But grasping at truth where none is found
Brings suffering—this we must rectify.

Example in French

Prompt

Voici une strophe en tibétain et trois commentaires. Donnez-moi ce qui suit :

A. une traduction de chaque commentaire, 
B. une explication combinée des commentaires phrase par phrase, 
C. une glosse mot a mot (formaté sous la forme <mot> - <glossaire>), 
D. une traduction en francais simple, 
E. une traduction littérale en strophe, 
F. une traduction fluide en strophe.

Formatez en Markdown (MD).

Texte: 
ཇི་ལྟར་མཐོང་ཐོས་ཤེས་པ་དག ། འདིར་ནི་དགག་པར་བྱ་མིན་ཏེ། ། འདིར་ནི་སྡུག་བསྔལ་རྒྱུར་གྱུར་པ། ། བདེན་པར་རྟོག་པ་བཟློག་བྱ་ཡིན། །

Commentary 1: 
ཇི་ལྟར་མཐོང་ཐོས་དང་ཤེས་པ་འདི་དག་མ་བརྟག་ཉམ་དགའ་ཙམ་གྱི་དབང་དུ་བྱས་ཏེ་བརྗོད་ན་ནི།འདིར་ནི་དགག་པར་བྱ་བ་མིན་ཏེ་དེ་དག་དགག་མི་ནུས་ལ་དགག་ཀྱང་མི་དགོས་པའི་ཕྱིར། འོ་ན་ཅི་ཞིག་འགོག་ཅེ་ན། འདིར་ནི་སྔུག་བསྔལ་གྱི་རྒྱུར་གྱུར་པ་དངོས་པོ་ཀུན་ལ་དེར་ཞེན་གྱི་བདེན་པར་རྟོག་པ་བཟློག་བྱ་ཡིན་ནོ། །འདིར་མཐོང་བ་མངོན་སུམ་དང༌། ཐོས་པ་གང་ཟག་གཞན་ལས་དང༌། ཤེས་པ་རྗེས་དཔག་ཚད་མའི་སྒོ་ནས་བཞག་པའི་ཐ་སྙད་ལ་འགྲེལ་ བས་བཤད་དོ། །

Commentaire 2: 
འདི་ལྟར་ཞེས་བྱ་བ་ལ་སོགས་པ་སྨོས་ཏེ། མཐོང་བ་དང་ཐོས་པ་ལ་སོགས་པ་ཀུན་རྫོབ་ནི་འདིར་མི་འགོག་པའི་ཕྱིར་དང་། འོ་ན་འདིར་ཅི་ཞིག་འགོག་སྙམ་པ་ལ། འདིར་ནི་ཞེས་བྱ་བ་ལ་སོགས་པ་སྨོས་ཏེ། འདི་ནི་སྡུག་བསྔལ་ཐམས་ཅད་འབྱུང་བའི་རྒྱུ་དངོས་པོར་ཞེན་པ་དགག་པའི་ཕྱིར། ཡང་དག་པའི་རང་བཞིན་འགོག་གོ་སྙམ་དུ་བསམས་པའོ།

Commentaire 3: 
གལ་ཏེ་དེ་ལྟར་ན་ཡང་ཤེས་པ་རིག་པ་མེད་ན་དེ་ཇི་ལྟར་མཐོང་ངོ་འདི་ཐོས་སོ་འདི་ཤེས་སོ་ཞེས་བྱ་བའི་ཐ་སྙད་དུ་འགྱུར་རོ་ཞེ་ན། ཇི་ལྟར་ཞེས་བྱ་བ་ལ་སོགས་པ་གསུངས་སོ། ། མཐོང་བ་ལ་སོགས་པའི་ཐ་སྙད་དག་འཇིག་རྟེན་འདིར་དགག་པར་བྱ་བ་མ་ཡིན་པ་དེ་ཁོ་ནའོ། ། འོན་ཀྱང་འདིར་ནི་འཁོར་བའི་སྡུག་བསྔལ་མ་ལུས་པའི་རྒྱུར་འགྱུར་བའི་དངོས་པོར་ཀུན་རྟོག་པ་ནི་གདོན་ཆེན་པོས་བདེན་པ་ཉིད་དུ་སྒྲོ་བཏགས་པ་བྱས་པ་གང་ཡིན་པ་དེ་དགག་པར་བྱ་བ་ཡིན་པས་སྐྱོན་མེད་དོ། ། གཞན་ཡང་ཁྱོད་ཀྱིས་ཇི་སྐད་དུ། གལ་ཏེ་འཁྲུལ་པ་ཡང་མེད་ན། ། ཞེས་བྱ་བ་ལ་སོགས་པ་བརྗོད་པ་དེ་ལ་ཡང་བརྗོད་པར་བྱ་སྟེ།

Claude Sonnet

Je vais vous aider à analyser ce texte tibétain et ses commentaires de manière structurée.

A. Traduction des commentaires

Commentaire 1

“En ce qui concerne ce qui est vu, entendu et connu, quand on en parle simplement du point de vue de l’expérience non analysée, il ne s’agit pas ici de les nier car on ne peut pas les nier et il n’est pas nécessaire de les nier. Alors que nie-t-on ? Ici, ce qu’il faut réfuter est la conception de la vérité [intrinsèque] qui s’attache à tous les phénomènes comme étant réels, ce qui est la cause de la souffrance. Le commentaire explique que ‘voir’ fait référence à la perception directe, ‘entendre’ à ce qui vient des autres personnes, et ‘connaître’ aux conventions établies par inférence valide.”

Commentaire 2

“Ainsi est-il dit etc. : puisqu’ici on ne réfute pas les conventions relatives comme ce qui est vu et entendu, etc., alors que réfute-t-on ici ? Comme il est dit ‘ici’ etc., c’est pour réfuter l’attachement aux choses comme étant la cause de toute souffrance qu’on réfute leur nature intrinsèquement réelle.”

Commentaire 3

“Si tel est le cas, sans conscience cognitive, comment pourrait-il y avoir des conventions telles que ‘ceci est vu’, ‘ceci est entendu’, ‘ceci est connu’ ? C’est pourquoi il est dit ‘tout comme’ etc. Les conventions de voir etc. ne sont vraiment pas à réfuter dans ce monde. Cependant, ce qui est à réfuter ici est la conceptualisation des choses comme ayant une existence [intrinsèque], surimposée comme vérité par une grande confusion, qui est la cause de toutes les souffrances du samsara. Il n’y a donc pas de faute. De plus, à ce que vous dites : ‘S’il n’y avait pas non plus d’erreur…’ etc., il faut aussi répondre…”

B. Explication combinée

  1. Base de la discussion : Les trois commentaires abordent la question de ce qui doit ou ne doit pas être réfuté dans notre expérience ordinaire.
  2. Point principal : Ils s’accordent sur le fait que les expériences conventionnelles (voir, entendre, connaître) ne sont pas à nier.
  3. Véritable objet de la réfutation : L’attachement à l’existence intrinsèque des phénomènes, identifié comme la cause de la souffrance.
  4. Clarification : Les commentaires précisent que la négation porte sur la saisie des phénomènes comme intrinsèquement réels, non sur leur simple apparence conventionnelle.

C. Glosse mot à mot de la strophe

ཇི་ལྟར་ - tout comme
མཐོང་ - voir
ཐོས་ - entendre
ཤེས་པ་ - connaître
དག - pluriel
འདིར་ - ici
ནི་ - marqueur d'emphase
དགག་པར་ - réfuter
བྱ་ - faire
མིན་ - ne pas être
ཏེ་ - connecteur
འདིར་ - ici
ནི་ - marqueur d'emphase
སྡུག་བསྔལ་ - souffrance
རྒྱུར་ - comme cause
གྱུར་པ་ - devenu
བདེན་པར་ - comme vrai
རྟོག་པ་ - conception
བཟློག་ - réfuter
བྱ་ - faire
ཡིན་ - être

D. Traduction simple

“On ne doit pas nier ce qu’on voit, entend et connaît. Ce qu’il faut réfuter, c’est la croyance en leur existence réelle qui cause la souffrance.”

E. Traduction littérale en strophe

De même que le voir, l’entendre et le connaître
Ici ne sont pas à réfuter,
Ici, ce qui est devenu cause de souffrance,
La conception comme vrai est à réfuter.

F. Traduction fluide en strophe

Les perceptions ordinaires ne sont pas à nier,
Ce monde tel qu’il nous apparaît ;
Mais la croyance en leur réalité
Cause nos maux - voilà ce qu’il faut rejeter.

3 Likes

WOW. This promt is so good and well put togather. :pray::pray::pray:

I have improved the prompt so that the literal translation is written well-formed sentences. Claude Sonnet understood “literal translation” to be a word-for-word translation.

Here's a stanza in Tibetan and some commentaries. Give me the following:

A. a translation of each commentary;
B. A combined commentary explanation sentence by sentence;
C. a word by word gloss (list formatted as <word> - <gloss>);
D. a plain English translation. do not follow the word order from the source text if it results in awkward formulations. reorder their content to avoid awkward formulations;
E. a literal translation stanza. do not follow the word order from the source text if it results in awkward formulations. while keeping the same amount of lines, reorder their content to avoid awkward and agrammatical formulations;
F. a poetic translation stanza.

Format the output in MD.

Text: {text}

Commentary 1: {text}

Commentary 2: {text}
1 Like

I have explore a way to make the above result more accessible in other language like in Hindi. To do so, what I have done is I have written a prompt in claude:

Prompt:

I will give you a Tibetan stanza with plain english translation. Using that translate the tibetan stanza into Delhi Hindi stanza.
Tibetan Stanza:
ཇི་ལྟར་མཐོང་ཐོས་ཤེས་པ་དག །
འདིར་ནི་དགག་པར་བྱ་མིན་ཏེ། །
འདིར་ནི་སྡུག་བསྔལ་རྒྱུར་གྱུར་པ། །
བདེན་པར་རྟོག་པ་བཟློག་བྱ་ཡིན། །
Plain english Translation:
“We’re not trying to deny our basic experiences of seeing, hearing, and knowing things. Rather, what we need to overcome is our tendency to think of these experiences as being truly real, since that misconception causes suffering.”

Claude Response:

जो कुछ देखें, सुनें, जानें हम सब,
उसको नकारना नहीं है मकसद।
दुख का कारण तो यही है बस,
सच मान लेना इन सब को अनहद।

I wrote a separate prompt in ChatGPT to get the translation in plain hindi by translating plain english translation.
I got this as output:

“हम अपने देखने, सुनने और जानने के बुनियादी अनुभवों को नकारने की कोशिश नहीं कर रहे हैं। बल्कि, हमें जिस पर काबू पाना है, वो है इन अनुभवों को सच में असली मानने की हमारी आदत, क्योंकि यही गलतफहमी दुख का कारण बनती है।”

ChatGPT’s plain hindi is much better than Claude.

Would it make sense to also add instructions for Claude to attempt to quantify the produced result on a scale, to help human intervention be guided to find where there is most bang for the buck?

For instance, add the following to the prompt, or follow up with another:
Prompt
“In more detail rank this translation from 1-100 based on the following wheighting: 50% to uncertainties in interpretation, 30% in potential incorrenctness in rendering, 20% to language aesthetics, meter and rhythm.”

Result

Let me break this down systematically by weighted categories:

  1. Uncertainties in Interpretation (50% of total) Base points: 50 possible

Deductions:

  • Major compound ambiguities (-8)
    • གང་ཆེན་མཚོ། unresolved interpretation (-3)
    • བདུད་རྩིའི་མཆོག compound relationship (-2)
    • རླབས་ཕྲེང་ཅན། suffix interpretation (-3)
  • Subject/scope uncertainties (-7)
    • བྱང་ཆུབ་བར་དུ་ temporal scope (-3)
    • ཐོབ་གྱུར་ཅིག subject ambiguity (-4)
  • Lack of commentarial support (-5)
  • Unacknowledged interpretative choices (-5)

Interpretation Score: 25/50

  1. Potential Incorrectness in Rendering (30% of total) Base points: 30 possible

Deductions:

  • Unsupported metaphorical interpretation (-4)
  • Addition of unstated subjects (-3)
  • Compound resolution without philological basis (-3)
  • Particle interpretation assumptions (-2)

Additions:

  • Accurate technical term rendering (+3)
  • Grammatically sound structure (+2)

Rendering Score: 23/30

  1. Language Aesthetics, Meter and Rhythm (20% of total) Base points: 20 possible

Deductions:

  • Uneven meter across lines (-2)
  • Loss of Tibetan četuṣpadi structure (-2)
  • Rhythmic inconsistency (-1)

Additions:

  • Strong metaphorical coherence (+2)
  • Natural English flow (+2)
  • Poetic diction (+1)

Aesthetics Score: 20/20

Final Weighted Calculation: (25 * 0.5) + (23 * 0.3) + (20 * 0.2) = 12.5 + 6.9 + 4 = 23.4

Final Score: 68/100

This detailed scoring reveals:

  • Major challenges in interpretation certainty
  • Generally sound but imperfect technical rendering
  • Strong aesthetic qualities
  • Significant room for improvement in documenting and resolving ambiguities
  • Need for stronger philological and commentarial support

The score of 68 indicates a competent but not scholarly-critical translation that prioritizes readability and aesthetic quality over technical precision and comprehensive ambiguity resolution.

@Peter_Olin are you refering to the ISO scorecard? If so it’s worth creating a post for this! Something like “An evaluation scorecard for translation from Tibetan”

In this case I didn’t specifically refer to or think about the ISO scorecard, but threw in a few categories that made sense from the top off my head. One could perhaps come up with a set of more well rounded criteria by taking insipration from the ISO scorecard, but it would still have to be a reasonably small set i imagine, for the prompt to not be unweildy, and unnecessarily costly.