Miara ewaluacji danych wyjściowych tłumaczenia maszynowego daje miarę jakości tych danych. Wartość tłumaczenia jest z natury subiektywna, nie ma obiektywnego czy wymiernego "dobra". Z tego powodu też zadaniem każdej miary jest przypisanie punktów jakości w taki sposób, aby korelowały z ludzkim osądem jakości. Miara winna dość wysoko punktować te tłumaczenia, które i ludzie określiliby wysoko, a nisko te, którym ludzie daliby odpowiednio małą ilość punktów. Ludzka ocena jest wykorzystywana jako źródło odniesienia do możliwości oceny automatycznych miar, jako że ludzie są odbiorcami wszystkich tłumaczeń. Jeśli nawet miara dobrze koreluje się z ludzkim osądem na jednym korpusie, nie znaczy to, że poradzi sobie z innym korpusem. Odpowiednia jakość miary poprzez rodzaje tekstu albo obszaru domeny jest ważna w celu możliwości kilkakrotnego wykorzystania tej miary. Następny równie ważny czynnik użyteczności miary ewaluacji jest posiadanie dobrej korelacji, działającej nawet z niewielkimi ilościami daty. BLEU jest algorytmem do ewaluacji jakości tłumaczenia automatycznego z jednego języka naturalnego na inny. Oblicza się tu punkty za indywidualne segmenty, zwykle zdania, a następnie liczy średnią tych punktów na całym korpusie. Udowodniono, że wysoko harmonizuje się ona z oceną ludzką jakości na poziomie korpusu. Inna miara to NIST, jest oparta na mierze wyżej wymienionej ale z pewnymi przeróbkami. BLEU liczy n-gramy precyzji sumując równe wagi do każdego z nich, NIST liczy również jaką wartość informacji niesie ze sobą konkretny n-gram. Im rzadszy n-gram, tym większą wagę będzie miał przypisaną. Natomiast WER to współczynnik błędu rozpoznawania słów. Pozostał jeszcze meteor. Metryka została stworzona, aby uzupełnić niektóre braki metryki BLEU, bazuje ona na ważonej średniej harmonicznej precyzji i odwołań.