Как настроить систему Тranslation Memory. «Память переводчика», или Что такое Translation Memory Машинная память переводов

В данной статье собраны программы (программы translation memory, электронные словари, программы для распознавания текста, программы для подсчета статистики, программы для локализации приложений, программы для перевода сайтов, другие программы для переводчиков), в том числе – бесплатные, которые позволяют переводить больше текстов за меньшее время. Так же даны краткие описания этих программ с ссылками на первоисточники для скачивания и установки. Надеемся, что Вы найдете здесь что-то полезное для себя.

ПРОГРАММЫ TRANSLATION MEMORY

Translation memory (переводческая память, накопители переводов) – программы, позволяющие «не переводить одно и то же два раза». Это базы данных, которые содержат ранее переведенные единицы текста. Если в новом тексте обнаруживается единица, которая уже есть в базе, система автоматически добавляет ее в перевод. Такие программы значительно экономят время переводчика, особенно если он работает с однотипными текстами.

Trados . На момент написания статьи – одна из самых популярных программ Translation memory. Позволяет работать с документами MS Word, презентациями PowerPoint, HTML-документами и файлами других форматов. В Trados есть модуль для ведения глоссариев. Сайт: http://www.translationzone.com/trados.html

Déjà Vu . Также один из лидеров по популярности. Позволяет работать с документами практически всех популярных форматов. Есть отдельные версии программы для переводчиков-фрилансеров и для бюро переводов. Сайт: http://www.atril.com/

OmegaT . Поддерживает большое количество популярных форматов, но документы в MS Word, Excel, PowerPoint требуется конвертировать в другие форматы. Приятная особенность: программа бесплатная. Сайт: http://www.omegat.org/

MetaTexis . Позволяет работать с документами основных популярных форматов. Предлагается два варианта программы – модуль для MS Word и серверная программа. Сайт: http://www.metatexis.com/

MemoQ . Функционал схож с Традосом и Déjà Vu, стоимость программы (на момент написания статьи) ниже, чем у более популярных систем. Сайт: http://kilgray.com/

Star Transit . Предназначена для перевода и локализации. На данный момент совместима только с ОС Windows. Сайт: http://www.star-group.net/DEU/group-transit-nxt/transit.html

WordFisher . Бесплатная система Translation Memory, созданная и поддерживаемая профессиональным переводчиком. Сайт: http://www.wordfisher.com/

Across . Предлагается 4 различных версии программы, отличающихся по объему функционала. Сайт: http://www.across.net/us/translation-memory.aspx

Catnip . Бесплатная программа, «наследница» программы MT2007. Сайт: http://mt2007-cat.ru/catnip/

ЭЛЕКТРОННЫЕ СЛОВАРИ

Здесь мы представили только электронные словари для автономной работы (без доступа в интернет). Онлайн-словарей значительно больше, им будет посвящена отдельная статья. Хотя интернет проник в самые удаленные уголки планеты, полезно иметь хотя бы 1 словарь для работы в автономном режиме. Мы рассмотрели словари для профессионального использования, разговорники и словари для изучающих язык сюда не вошли.

ABBYY Lingvo . На данный момент позволяет переводить с 15 языков. Есть несколько версий программы с разным объемом словарей. Существует версия для мобильных устройств. Платная версия словаря устанавливается на компьютер и может работать без подключения к интернету, бесплатная доступна только онлайн. Программа совместима с Windows, Symbian, Mac OS X, iOS, Android. Сайт: http://www.lingvo.ru/

Мультитран . Не все знают, что существует офлайновая версия этого популярного словаря. Может устанавливаться на компьютеры (стационарные и карманные), смартфоны. Работает с Windows, Symbian и Android, а также Linux (через браузер). На данный момент позволяет переводить с / на 13 языков. Сайт: http://www.multitran.ru/c/m.exe

Promt . У данной программы есть версии для профессионального использования. Плюс Промта в том, что он позволяет работать совместно с Trados. Сайт: http://www.promt.ru/

Slovoed . Может переводить c/на 14 языков. Устанавливается на стационарные компьютеры и ноутбуки, мобильные устройства и ридеры Amazon Kindle. Работает с операционными системами iOS, Android, Windows, Symbian, BlackBerry, bada, Tizen. У словаря несколько версий, в том числе – узкоспециализированные тематические словари. Сайт: http://www.slovoed.ru/

ПРОГРАММЫ ДЛЯ РАСПОЗНАВАНИЯ ТЕКСТА

ABBYY FineReader . Распознает текст на фотографиях, сканах, PDF-документах. Последняя (на момент написания статьи) версия распознает текст на 190 языках, а для 48 из них делает проверку орфографии. Сохранить полученный текст можно практически во всех популярных форматах (Word, Excel, PowerPoint, PDF, html и др.) Сайт: http://www.abbyy.ru/finereader/

CuneiForm (OpenOCR). Программа была создана как коммерческий продукт, однако на данный момент распространяется свободно. Совместима с операционными системами Linux, Mac OS X , Windows. Сайт: http://openocr.org/

ПРОГРАММЫ ДЛЯ ПОДСЧЕТА СТАТИСТИКИ

Translator’s Abacus бесплатная программа для подсчета количества слов в документах различного типа. Сайт: http://www.globalrendering.com/

AnyCount – платная программа, обладающая большим числом настроек. Например, можно посчитать кол-во знаков с пробелами или без пробелов, кол-во слов, строк, страниц, или задать единицу подсчета самостоятельно. Сайт: http://www.anycount.com/

FineCount – программа доступна в двух версиях, платной и бесплатной, которые различаются объемом функций. Сайт: http://www.tilti.com/

ПРОГРАММЫ ДЛЯ ЛОКАЛИЗАЦИИ ПРИЛОЖЕНИЙ

ПРОГРАММЫ ДЛЯ ПЕРЕВОДА САЙТОВ

ДРУГИЕ ПРОГРАММЫ ДЛЯ ПЕРЕВОДЧИКОВ

ApSIC Comparator – программа для сравнения файлов (исходный текст VS текст с изменениями, внесенными переводчиком). Сайт.

Память переводов проекта (TM) - это хранилище исходных строк и их переводов на разные языки, которые можно использовать для ускорения перевода одинаковых или похожих строк в вашем проекте или других проектах.

Каждый перевод, сделанный в проекте, автоматически добавляется в память переводов проекта. Владелец или руководители проекта также могут при необходимости загрузить в проект Translation Memory.

Скачивание или загрузка памяти переводов

  1. Перейдите на вкладку TM & MT пункта настройки проекта .
  2. Нажмите кнопку скачать или загрузить .

You can upload and download TM in the following file formats .tmx, .csv, .xlsx.

Если вы загружаете TM в форматах файлов.csv или.xlsx, сопоставьте столбцы с соответствующими языками в диалоге конфигурации.

Привязка ТМ

Чтобы привязать какие-либо конкретные TM для вашего проекта, выполните следующие действия:

  1. Перейдите на вкладку TM & MT пункта настройки проекта .
  2. Нажмите **Привязать TM **.
  3. Выберите необходимые ТМ в открывшемся диалоговом окне.
  4. Кликните по кнопке Сохранить .

Вы можете установить приоритет выбранных ТМ в том же диалоге.

Совместное использование ТМ

Со всеми вашими TM используемыми совместно вы сможете предварительно перевести любой из ваших проектов, используя все общие TM. Кроме того, в редакторе будут показаны предложения по переводу ТМ из всех ТМ, назначенных для проектов, которыми вы владеете.


Применение памяти переводов через предварительный перевод

Предварительный перевод через ТМ позволяет использовать как минимум 100% и совершенные совпадения.

Программы машинного перевода — это программы, которые специально разрабатываются для облегчения процесса перевода с помощью компьютера (букв. computer assisted translation ), как AutoCAD для инженеров или ArchiCAD для архитекторов. Такое программное обеспечение специально разработано, чтобы создавать, хранить, читать и записывать информацию в виде файлов под названием «память перевода» (букв. translation memories), при этом программа создает строку с языковой парой, автоматически находя для отдельного слова или словосочетания его соответствие на другом языке. Программа создает файл с названием, например, RU_EN или RU_IT и т.п., в котором слово или словосочетание на одном языке соответствует своему значению на другом языке.

Что такое «память перевода» и как она работает.

Память перевода (translation memory, TM) — это объемный файл с техническими терминами, сокращениями, устоявшимися выражениями.

Если вам предстоит перевести, например, сокращение «CCCP » с русского на английский с помощью программы машинного перевода (CAT), программа сразу предложит вам вариант перевода: Soviet Union.

На первый взгляд, все просто, но не все так просто, как кажется. Если мы переводим документ, не имеющий отношения к истории, тогда данная аббревиатура может означать нечто совершенно другое: c arbonyl c yanide m-c hlorophenyl h ydrazone , токсичный ионофор, разобщитель дыхательной цепи. Или, например, это может означать «c ombined c ommunity c odec p ack «, программный пакет Microsoft Windows для воспроизведения мультимедийных файлов.

Вот почему компания «Экспримере» не использует в работе программы автоматического перевода. Мы пользуемся исключительно терминологическими базами данных для технических переводов.

(реже - часть сложносочинённого предложения , либо абзац). Если единица перевода исходного текста в точности совпадает с единицей перевода, хранящейся в базе (точное соответствие, англ. exact match ), она может быть автоматически подставлена в перевод. Новый сегмент может также слегка отличаться от хранящегося в базе (нечёткое соответствие, англ. fuzzy match ). Такой сегмент может быть также подставлен в перевод, но переводчик будет должен внести необходимые изменения.

Помимо ускорения процесса перевода повторяющихся фрагментов и изменений, внесенных в уже переведенные тексты (например, новых версий программных продуктов или изменений в законодательстве), системы ПП также обеспечивают единообразие перевода терминологии в одинаковых фрагментах, что особенно важно при техническом переводе. С другой стороны, если переводчик регулярно подставляет в свой перевод точные соответствия, извлеченные из баз переводов, без контроля их использования в новом контексте, качество переведенного текста может ухудшиться.

В каждой конкретной системе ПП данные хранятся в своем собственном формате (текстовый формат в Wordfast, база данных Access в Deja Vu), но существует международный стандарт TMX (англ. Translation Memory eXchange format ), который основан на XML и который может генерироваться практически всеми системами ПП. Благодаря этому сделанные переводы можно использовать в разных приложениях, то есть переводчик работающий с OmegaT может использовать ПП, созданную в ТРАДОСе и наоборот.

Большинство систем ПП как минимум поддерживают создание и использование словарей пользователя, создание новых баз данных на основе параллельных текстов (англ. alignment ), а также полуавтоматическое извлечение терминологии из оригинальных и параллельных текстов.

Популярные программные системы ПП

В соответствии с обзорами использования систем ПП к наиболее популярным системам относятся :

В английской Википедии есть список , сравнивающий возможности различных систем.

Стандарты и форматы памяти переводов

  • TMX (Translation Memory Exchange Format - Обмен памятью переводов) формат. Этот стандарт обеспечивает взаимный обмен между разными поставщиками памяти переводов. TMX является общепринятым форматом в среде переводчиков и лучше всего подходит для импорта и экспорта памяти переводов. Последняя версия этого формата - 1.4b позволяет восстанавливать исходные документы и их перевод из файла TMX.
  • TBX (Termbase Exchange format - Обмен терминологическими базами). Это принятый LISA (Ассоциации индустрии локализации) формат сейчас пересматривается и переиздается согласно ISO 30042. Этот стандарт позволяет проводить обмен терминологией, в том числе детальной лексической информацией. Основная база TBX определяется стандартами: ISO 12620, ISO 12200 и ISO 16642. ISO 12620 обеспечивает реестр четко определенных «категорий данных» со стандартизованными именами, которые функционируют как типы элементов данных или предопределенные значения. ISO 12200 (известен также как MARTIF) предоставляет основу для каркасной структуры TBX. ISO 16642 (известен также как Terminological Markup Framework - Структура терминологической разметки) включает структурную метамодель для терминологических языков разметки (Terminology Markup Languages) в целом.
  • SRX создан для улучшения формата TMX и большей эффективности обмена памятью переводов между программами. Возможность указывать правила сегментации, которые использовались в предыдущем переводе, повышает эффективность отождествления сегментов в текущем тексте с содержимым ПП.
  • GMX GILT означает Globalization, Internationalization, Localization, and Translation (Глобализация, интернационализация , локализация , перевод). Стандарт GILT Metrics состоит из трех частей: GMX-V для показателей объема, GMX-C для показателей сложности, GMX-Q для показателей качества. Предложенный стандарт GILT Metrics направлен на квантификацию объема работ и требований качества при реализации задач GILT.
  • OLIF - открытый стандарт, совместимый с XML , который используется для обмена терминологическими и лексическими данными. Хотя изначально он применялся в качестве способа обмена лексическими данными между частными лексиконами машинного перевода, постепенно этот формат превратился в более общий стандарт терминологического обмена.
  • XLIFF (XML Localisation Interchange File Format - XML формат для взаимного обмена при локализации), создан как единый формат файлов для взаимного обмена, который распознается всеми программными средствами локализации. XLIFF - это наилучший в современной индустрии переводов способ обмена информацией в формате XML.
  • TransWS (Translation Web Services - переводческие веб-сервисы), определяет требуемые параметры вызова веб-сервисов при отправлении и получении файлов и сообщений, имеющих отношение к проектам локализации. Задумывался как развернутая система автоматизации процесса локализации с использованием сервисов в сети Интернет .
  • xml:tm, этот подход к памяти переводов основан на концепции текстовой памяти, которая позволяет совмещать авторскую память и память переводов. Формат xml:tm был передан Lisa OSCAR компанией XML-INTL.

Преимущества и недостатки

Преимущества

  • Сокращение времени и объема работы переводчика
  • Улучшение последовательности перевода, особенно при работе группы переводчиков над одним проектом.
  • Увеличение прибыли за счет увеличения производительности труда переводчика, группы переводчиков
  • Повышение качества услуг за счет увеличения точности и единообразия перевода терминов, особенно в специализированных текстах.

Недостатки

  • Может делать перевод более «сухим»; утрачивается сама суть текста, если перевод с использованием накопителя переводов выполняется переводчиком низкой квалификации
  • Часто отсутствует связь предлагаемого программой предложения/текста с соседними предложениями и с текстом в целом
  • Оригинал должен быть в электронном виде
  • Одна незамеченная ошибка может распространиться на весь проект
  • Необходимо обучение самой программы, а при смене работы - возможно, и не один раз (если работодатели работают с разными программами ТМ)
  • Подходит не ко всем видам текстов
  • Высокая стоимость лицензионного ПО

См. также

Литература

  • Грабовский В. Н. Технология Translation Memory // Мосты. Журнал переводчиков. 2004. № 2. - С. 57-62.

Ссылки

  • Не делайте один и тот же перевод дважды // Компьютерра Онлайн, 14 февраля 2005 года.

Примечания


Wikimedia Foundation . 2010 .

  • Берос
  • Нергал

Смотреть что такое "Память переводов" в других словарях:

    Память (значения) - Содержание 1 В психологии 2 В компьютерной технике … Википедия

    Память о Феодоре Стратилате - Мозаика с изображе … Википедия

    Накопитель переводов

    Битекст

    Параллельный текст (битекст) - текст на одном языке вместе с его переводом на другой язык. «Выравнивание параллельного текста» это идентификация соответствующих друг другу предложений в обеих половинах параллельного текста. Большие собрания параллельных текстов называются… … Википедия

    Параллельный корпус - Параллельный текст (битекст) текст на одном языке вместе с его переводом на другой язык. «Выравнивание параллельного текста» это идентификация соответствующих друг другу предложений в обеих половинах параллельного текста. Большие собрания… … Википедия

    Translation Memory - Память переводов (ПП, англ. translation memory, TM иногда называемая «Накопитель переводов») база данных, содержащая набор ранее переведенных текстов. Одна запись в такой базе данных соответствует сегменту или «единице перевода» (англ.… … Википедия

(реже - часть сложносочинённого предложения , либо абзац). Если единица перевода исходного текста в точности совпадает с единицей перевода, хранящейся в базе (точное соответствие, англ. exact match ), она может быть автоматически подставлена в перевод. Новый сегмент может также слегка отличаться от хранящегося в базе (нечёткое соответствие, англ. fuzzy match ). Такой сегмент может быть также подставлен в перевод, но переводчик будет должен внести необходимые изменения.

Помимо ускорения процесса перевода повторяющихся фрагментов и изменений, внесенных в уже переведенные тексты (например, новых версий программных продуктов или изменений в законодательстве), системы ПП также обеспечивают единообразие перевода терминологии в одинаковых фрагментах, что особенно важно при техническом переводе. С другой стороны, если переводчик регулярно подставляет в свой перевод точные соответствия, извлеченные из баз переводов, без контроля их использования в новом контексте, качество переведенного текста может ухудшиться.

В каждой конкретной системе ПП данные хранятся в своем собственном формате (текстовый формат в Wordfast, база данных Access в Deja Vu), но существует международный стандарт TMX (англ. Translation Memory eXchange format ), который основан на XML и который может генерироваться практически всеми системами ПП. Благодаря этому сделанные переводы можно использовать в разных приложениях, то есть переводчик работающий с OmegaT может использовать ПП, созданную в ТРАДОСе и наоборот.

Большинство систем ПП как минимум поддерживают создание и использование словарей пользователя, создание новых баз данных на основе параллельных текстов (англ. alignment ), а также полуавтоматическое извлечение терминологии из оригинальных и параллельных текстов.

Популярные программные системы ПП

В соответствии с обзорами использования систем ПП к наиболее популярным системам относятся :

В английской Википедии есть список , сравнивающий возможности различных систем.

Стандарты и форматы памяти переводов

  • TMX (Translation Memory Exchange Format - Обмен памятью переводов) формат. Этот стандарт обеспечивает взаимный обмен между разными поставщиками памяти переводов. TMX является общепринятым форматом в среде переводчиков и лучше всего подходит для импорта и экспорта памяти переводов. Последняя версия этого формата - 1.4b позволяет восстанавливать исходные документы и их перевод из файла TMX.
  • TBX (Termbase Exchange format - Обмен терминологическими базами). Это принятый LISA (Ассоциации индустрии локализации) формат сейчас пересматривается и переиздается согласно ISO 30042. Этот стандарт позволяет проводить обмен терминологией, в том числе детальной лексической информацией. Основная база TBX определяется стандартами: ISO 12620, ISO 12200 и ISO 16642. ISO 12620 обеспечивает реестр четко определенных «категорий данных» со стандартизованными именами, которые функционируют как типы элементов данных или предопределенные значения. ISO 12200 (известен также как MARTIF) предоставляет основу для каркасной структуры TBX. ISO 16642 (известен также как Terminological Markup Framework - Структура терминологической разметки) включает структурную метамодель для терминологических языков разметки (Terminology Markup Languages) в целом.
  • SRX создан для улучшения формата TMX и большей эффективности обмена памятью переводов между программами. Возможность указывать правила сегментации, которые использовались в предыдущем переводе, повышает эффективность отождествления сегментов в текущем тексте с содержимым ПП.
  • GMX GILT означает Globalization, Internationalization, Localization, and Translation (Глобализация, интернационализация , локализация , перевод). Стандарт GILT Metrics состоит из трех частей: GMX-V для показателей объема, GMX-C для показателей сложности, GMX-Q для показателей качества. Предложенный стандарт GILT Metrics направлен на квантификацию объема работ и требований качества при реализации задач GILT.
  • OLIF - открытый стандарт, совместимый с XML , который используется для обмена терминологическими и лексическими данными. Хотя изначально он применялся в качестве способа обмена лексическими данными между частными лексиконами машинного перевода, постепенно этот формат превратился в более общий стандарт терминологического обмена.
  • XLIFF (XML Localisation Interchange File Format - XML формат для взаимного обмена при локализации), создан как единый формат файлов для взаимного обмена, который распознается всеми программными средствами локализации. XLIFF - это наилучший в современной индустрии переводов способ обмена информацией в формате XML.
  • TransWS (Translation Web Services - переводческие веб-сервисы), определяет требуемые параметры вызова веб-сервисов при отправлении и получении файлов и сообщений, имеющих отношение к проектам локализации. Задумывался как развернутая система автоматизации процесса локализации с использованием сервисов в сети Интернет .
  • xml:tm, этот подход к памяти переводов основан на концепции текстовой памяти, которая позволяет совмещать авторскую память и память переводов. Формат xml:tm был передан Lisa OSCAR компанией XML-INTL.

Преимущества и недостатки

Преимущества

  • Сокращение времени и объема работы переводчика
  • Улучшение последовательности перевода, особенно при работе группы переводчиков над одним проектом.
  • Увеличение прибыли за счет увеличения производительности труда переводчика, группы переводчиков
  • Повышение качества услуг за счет увеличения точности и единообразия перевода терминов, особенно в специализированных текстах.

Недостатки

  • Может делать перевод более «сухим»; утрачивается сама суть текста, если перевод с использованием накопителя переводов выполняется переводчиком низкой квалификации
  • Часто отсутствует связь предлагаемого программой предложения/текста с соседними предложениями и с текстом в целом
  • Оригинал должен быть в электронном виде
  • Одна незамеченная ошибка может распространиться на весь проект
  • Необходимо обучение самой программы, а при смене работы - возможно, и не один раз (если работодатели работают с разными программами ТМ)
  • Подходит не ко всем видам текстов
  • Высокая стоимость лицензионного ПО

См. также

Литература

  • Грабовский В. Н. Технология Translation Memory // Мосты. Журнал переводчиков. 2004. № 2. - С. 57-62.

Ссылки

  • Не делайте один и тот же перевод дважды // Компьютерра Онлайн, 14 февраля 2005 года.

Примечания


Wikimedia Foundation . 2010 .

Смотреть что такое "Память переводов" в других словарях:

    Содержание 1 В психологии 2 В компьютерной технике … Википедия

    Мозаика с изображе … Википедия

    Текст на одном языке вместе с его переводом на другой язык. «Выравнивание параллельного текста» это идентификация соответствующих друг другу предложений в обеих половинах параллельного текста. Большие собрания параллельных текстов называются… … Википедия

    Параллельный текст (битекст) текст на одном языке вместе с его переводом на другой язык. «Выравнивание параллельного текста» это идентификация соответствующих друг другу предложений в обеих половинах параллельного текста. Большие собрания… … Википедия

    Память переводов (ПП, англ. translation memory, TM иногда называемая «Накопитель переводов») база данных, содержащая набор ранее переведенных текстов. Одна запись в такой базе данных соответствует сегменту или «единице перевода» (англ.… … Википедия