Nonparametric Methods of Authorship Attribution in English Literature

Клюшин, Дмитро АнатолійовичДмитро АнатолійовичКлюшинМихайлюк, В. Ю.В. Ю.Михайлюк2026-04-082026-04-082020-07-02Клюшин, Д. A., & Михайлюк, В. Ю. (2020). Непараметричнi методи атрибуцiї авторства в англiйськiй лiтературi. Журнал обчислювальної та прикладної математики, (1), 50–58. https://doi.org/10.17721/2706-9699.2020.1.04УДК 519.2310.17721/2706-9699.2020.1.04https://ir.library.knu.ua/handle/15071834/14840The paper describes the results of comparison of two nonparametric methods of authorship identification in English literature. It describes testing methods with and without clustering. A method was also proposed to select the n-grams that would best serve as a marker to identify the author. More than 800 texts of 16 authors were used for testing. The method using the density of the distribution is suitable for identifying authors of both large texts (50000+ characters) and small (10000+ characters) ones. A method that uses p-statistics is only suitable for large texts.В статье описаны результаты сравнения двух непараметрических методов идентификации неизвестного автора на примерах английской литературы. В ней описана реализацию метода кластеризации и применение методов тестирования с кластеризацией и без нее. Предложен метод выбора n- грамм, которые являются лучшими маркерами для идентификации автора. Для тестирования было использовано более 800 текстов 16 авторов. В результате было установлено, что метод, использующий плотность распределения, подходит для идентификации авторов как больших текстов (50000+ символов), так и малых (10000+ символов). Метод, использующий p-статистику, подходит для использования только в больших текстах. С помощью кластеризации текстов на тестовой выборке для обоих методов была достигнута значительно лучшие результаты. Работа продолжает исследования эффективности методов идентификации авторства, выполненную ранее на примере произведений классической русской литературы. Результаты подтверждают, что эффективность методов не зависит от выбранного языка произведения.У статтi описанi результати порiвняння двох непараметричних методiв iдентифiкацiї невiдомого автора на прикладах англiйської лiтератури. У нiй описано реалiзацiю методу кластеризацiї та застосування методiв тестування з кластеризацiєю та без неї. Запропоновано метод вибору n-грам, якi є кращими маркерами для iдентифiкацiї автора. Для тестування було використано понад 800 текстiв 16 авторiв. В результатi було встановлено, що метод, який використовує щiльнiсть розподiлу, придатний для iдентифiкацiї авторiв як великих текстiв (50000+ символiв), так i малих (10000+ символiв). Метод, який використовує p-статистику, придатний тiльки для великих текстiв. За допомогою кластеризацiї текстiв на тестовiй вибiрцi для обох методiв була досягнута значно кращi результати. Робота продовжує дослiдження ефективностi методiв iдентифiкацiї авторства, виконану ранiше на прикладi творiв класичної росiйської лiтератури. Результати пiдтверджують, що ефективнiсть методiв не залежить вiд вибраної мови твору.ukText AttributionAuthorship IdentificationPetunin StatisticsClusteringNonparametric Testатрибуцiя текстуiдентифiкацiя авторстванепараметричнi методистатистика Петунiнакластеризацiяатрибуция текстаидентификация авторстванепараметрические методыстатистика ПетунинакластеризацияNonparametric Methods of Authorship Attribution in English LiteratureНепараметрические методы атрибуции авторства в английской литературеНепараметричнi методи атрибуцiї авторства в англiйськiй лiтературiСтаття