Параметри
ЗАСТОСУВАННЯ ТА АНАЛІЗ ФОРМАЛЬНИХ МЕТОДІВ ОЦІНЮВАННЯ РЕЛЕВАНТНОСТІ АВТОМАТИЧНО СТВОРЕНИХ РЕФЕРАТІВ ІНФОРМАЦІЙНИХ ТЕКСТІВ
Тип публікації :
Стаття
Дата випуску :
20 грудня 2024 р.
Автор(и) :
КУЗНЄЦОВ, Олексій
КИСЕЛЬОВ, Геннадій
Мова основного тексту :
Ukrainian
eKNUTSHIR URL :
Журнал :
Випуск :
1
ISSN :
2788-6603
Початкова сторінка :
32
Кінцева сторінка :
48
Цитування :
КУЗНЄЦОВ, О., КИСЕЛЬОВ, Г. (2024). USING AND ANALYSIS OF FORMAL METHODS FOR EVALUATING THE RELEVANCE OF AUTOMATICALLY GENERATED SUMMARIES OF INFORMATIONAL TEXTS. Advanced Information Technology(1), 32–48. https://doi.org/10.17721/AIT.2024.1.04
В с т у п . Розглянуто існуючі підходи до оцінювання якості автоматично створених рефератів інформаційних текстів. Дано огляд методів автоматичного реферування, включаючи класичні підходи та сучасні моделі на основі штучного інтелекту. Огляд містить екстрактивні методи реферування, такі як TF-IDF та PageRank, а також графові методи, зокрема TextRank. Особливу увагу приділено абстрактним підходам, що включають моделі Generative Pretrained Transformer (GPT) і Bidirectional and Auto-Regressive Transformers (BART). Оцінювання якості генерованих рефератів виконують за допомогою кількісних метрик оцінювання релевантності рефератів, зокрема і ROUGE та BLEU.
М е т о д и . Проаналізовано кілька підходів до автоматичного реферування текстів. Класичні екстрактивні методи, зокрема і TF-IDF, обчислюють важливість термів на основі частоти їхнього вживання в документі та в колекції документів. PageRank і TextRank використовують графові моделі для визначення значущості речень на основі зв’язків між ними. Абстрактні методи, такі як GPT і BART, генерують нові речення, що стисло передають зміст оригінального тексту. Оцінювання ефективності кожного підходу здійснюється метриками ROUGE і BLEU, які вимірюють збіг між автоматично згенерованими рефератами й еталонними текстами. Особливу увагу приділено аналізу їхньої точності, гнучкості, вимогам до ресурсів і простоті реалізації.
Р е з у л ь т а т и . Результати дослідження свідчать, що метрики ROUGE показують хорошу точність у вимірюванні збігів n-грам (послідовностей з n слів), тоді як BLEU ефективна у завданнях машинного перекладу, але може не враховувати деякі синтаксичні особливості тексту. Оцінювання методів автоматичного реферування за допомогою цих метрик показала, що екстрактивні методи реферування, такі як TF-IDF, є ефективними для оброблення простих текстів, але можуть втратити важливий контекст у складних текстах. PageRank і TextRank дозволяють враховувати зв’язки між реченнями, проте можуть давати менш релевантні результати для текстів із слабко вираженими структурними зв’язками. Абстрактні моделі GPT і BART забезпечують гнучкіший підхід до реферування, створюючи нові речення, що краще передають зміст, однак потребують значних обчислювальних ресурсів і складні у впровадженні.
В и с н о в к и . Поєднання класичних і сучасних методів автоматичного реферування текстів дозволяє досягти вищої якості результатів. Важливо враховувати специфіку тексту та вимоги до кінцевого результату, адаптуючи обрані підходи та метрики відповідно до завдання.
М е т о д и . Проаналізовано кілька підходів до автоматичного реферування текстів. Класичні екстрактивні методи, зокрема і TF-IDF, обчислюють важливість термів на основі частоти їхнього вживання в документі та в колекції документів. PageRank і TextRank використовують графові моделі для визначення значущості речень на основі зв’язків між ними. Абстрактні методи, такі як GPT і BART, генерують нові речення, що стисло передають зміст оригінального тексту. Оцінювання ефективності кожного підходу здійснюється метриками ROUGE і BLEU, які вимірюють збіг між автоматично згенерованими рефератами й еталонними текстами. Особливу увагу приділено аналізу їхньої точності, гнучкості, вимогам до ресурсів і простоті реалізації.
Р е з у л ь т а т и . Результати дослідження свідчать, що метрики ROUGE показують хорошу точність у вимірюванні збігів n-грам (послідовностей з n слів), тоді як BLEU ефективна у завданнях машинного перекладу, але може не враховувати деякі синтаксичні особливості тексту. Оцінювання методів автоматичного реферування за допомогою цих метрик показала, що екстрактивні методи реферування, такі як TF-IDF, є ефективними для оброблення простих текстів, але можуть втратити важливий контекст у складних текстах. PageRank і TextRank дозволяють враховувати зв’язки між реченнями, проте можуть давати менш релевантні результати для текстів із слабко вираженими структурними зв’язками. Абстрактні моделі GPT і BART забезпечують гнучкіший підхід до реферування, створюючи нові речення, що краще передають зміст, однак потребують значних обчислювальних ресурсів і складні у впровадженні.
В и с н о в к и . Поєднання класичних і сучасних методів автоматичного реферування текстів дозволяє досягти вищої якості результатів. Важливо враховувати специфіку тексту та вимоги до кінцевого результату, адаптуючи обрані підходи та метрики відповідно до завдання.
Тип зібрання :
Publication
Файл(и) :
Вантажиться...
Формат
Adobe PDF
Розмір :
868.17 KB
Контрольна сума:
(MD5):e028a24b201079e5acbc84baf78617b0
10.17721/AIT.2024.1.04