Параметри
Сумаризація тексту за допомогою архітектури трансформеру
Дата випуску :
2022
Автор(и) :
Омельченко Роман Олексійович
Анотація :
У роботі було реалізовано процедуру тонкого налаштування моделі трансформеру Т5 на україномовному датасеті. На даний момент існують такі два основних напрямки розвитку технології сумаризації як абстрактивна та екстрактивна сумаризація.
Екстрактивна сумаризація ґрунтується на витягуванні з тексту певних його складових частин без змін. Найчастіше це речення. Витягування відбувається на основі багатьох ознак, таких як довжина речення, позиція у документі, включення певних фраз, частота певних змістовних термів. Іноді застосовуються методи латентного семантичного аналізу. Абстрактивна сумаризація ґрунтується на застосуванні моделей глибокого навчання, таких як згорткові мережі, або архітектура трансформеру. Вони дозволяють досягти більшого рівня новизни резюме тексту. Основним принципом архітектури трансформеру є багатошарова модель енкодер-декодер з механізмом самоуваги. Це дозволяє моделі враховувати контекст при генерації вихідної послідовності.
Екстрактивна сумаризація ґрунтується на витягуванні з тексту певних його складових частин без змін. Найчастіше це речення. Витягування відбувається на основі багатьох ознак, таких як довжина речення, позиція у документі, включення певних фраз, частота певних змістовних термів. Іноді застосовуються методи латентного семантичного аналізу. Абстрактивна сумаризація ґрунтується на застосуванні моделей глибокого навчання, таких як згорткові мережі, або архітектура трансформеру. Вони дозволяють досягти більшого рівня новизни резюме тексту. Основним принципом архітектури трансформеру є багатошарова модель енкодер-декодер з механізмом самоуваги. Це дозволяє моделі враховувати контекст при генерації вихідної послідовності.
Бібліографічний опис :
Омельченко Р. О. Сумаризація тексту за допомогою архітектури трансформеру : кваліфікаційна робота … бакалавра : 122 Комп’ютерні науки / Омельченко Роман Олексійович. – Київ, 2022. – 52 с.
Файл(и) :
Вантажиться...
Формат
Adobe PDF
Розмір :
2.27 MB
Контрольна сума:
(MD5):b60151d28e2762659f7d7467bec99b52
Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY-NC