Репозитарій КНУ
  • Yкраї́нська
  • English
  • Увійти
    Новий користувач? Зареєструйтесь.Забули пароль?
Репозитарій КНУ
  • Фонди & Зібрання
  • Статистика
  • Yкраї́нська
  • English
  • Увійти
    Новий користувач? Зареєструйтесь.Забули пароль?
  1. Головна
  2. Дані досліджень | Research data
  3. Дані досліджень (FAIR-дані) | Research data (FAIR data)
  4. Token-Level Post-Editing Dataset (EN–MT–Human): English-Ukrainian Translation Edit Log (Education-Legal) v. 1.2.
 
  • Деталі
Параметри
Назва :
Token-Level Post-Editing Dataset (EN–MT–Human): English-Ukrainian Translation Edit Log (Education-Legal) v. 1.2.
Дата випуску :
2026-02-23
Творець
Skrylnyk, Serhii
Анотація :
This dataset provides a structured token-level log of post-editing operations extracted from a triple-layer translation corpus consisting of:(1) English source text,(2) DeepL-generated Ukrainian MT output, and(3) Human-edited Ukrainian translation.
The dataset contains 6,207 non-equal token-level operations (replace / insert / delete), recorded after monotonic block alignment of MT and Human sentence sequences using a banded dynamic-programming procedure. Alignment permits 1–1, 1–2, 2–1, and 2–2 transitions and combines anchor-word similarity with length-based penalties. Token-level differences are extracted within aligned blocks using sequence-based comparison.
English page references are derived via length-based (Gale–Church-style) dynamic alignment between English and MT sentence sequences. Page ranges are propagated to aligned MT–Human blocks.
Each row represents a single edit operation and includes block identifiers, page ranges, sentence ranges, operation type, token positions, and rule-based change classification (lexical/stylistic, addition, omission, orthography, number/formatting, punctuation, capitalization).
This release is a SAFE version. It does not include full textual contexts of the source, MT, or Human translations. Only the token-level edit log and metadata necessary for reproducibility are distributed. Full aligned texts are not publicly shared due to copyright and licensing considerations but may be provided upon justified academic request.
The dataset is suitable for research in:


post-editing analysis


MT quality diagnostics


cognitive translation studies


token-level error modeling


edit-distance–based evaluation research


Primary file: CSV (UTF-8)Documentation: README and full methodology description
License: CC BY 4.0
DOI :
10.5281/zenodo.18742235
eKNUTSHIR URL :
https://doi.org/10.5281/zenodo.18742235
https://ir.library.knu.ua/handle/15071834/11866

Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY

Налаштування куків Політика приватності Угода користувача Надіслати відгук

Побудовано за допомогою Програмне забезпечення DSpace-CRIS - Розширення підтримується та оптимізується 4Наука

м. Київ, вул. Володимирська, 58, к. 42

(044) 239-33-30

ir.library@knu.ua