Параметри
Принципи роботи великих мовних моделей (LLM)
Тип публікації :
Стаття
Дата випуску :
17 липня 2025 р.
Автор(и) :
Lysyi, P. O.
Мова основного тексту :
Ukrainian
eKNUTSHIR URL :
Випуск :
1
ISSN :
2706-9680
Початкова сторінка :
63
Кінцева сторінка :
76
Цитування :
Lysyi, P. O. (2025). Principles of Large Language Models (LLM). Journal of Numerical and Applied Mathematics(1), 63–76. https://doi.org/10.17721/2706-9699.2025.1.06
У статтi дослiджено принципи роботи великих мовних моделей (LLM), зокрема механiзм генерацiї наступного токена в процесi автогресивного моделювання. Описано теоретичнi основи нейронних мовних моделей, трансформерну архiтектуру з механiзмом самоуваги, а також роль токенiзацiї та ембеддингу у формуваннi вхiдного представлення тексту. Проаналiзовано основнi методи вибору наступного токена (жадiбне декодування, top-k, top-p семплiнг, температура), їхнiй вплив на стохастичнiсть результатiв i баланс мiж узгодженiстю та креативнiстю. Розглянуто обмеження довжини контексту, джерела тренувальних даних i виклики, пов’язанi з iнтерпретованiстю та ймовiрнiстю «галюцинацiй». Стаття є цiлiсним оглядом архiтектурних та алгоритмiчних рiшень, що лежать в основi генерацiї тексту LLM.
Тип зібрання :
Publication
Файл(и) :
Ескіз недоступний
Формат
Adobe PDF
Розмір :
718.97 KB
Контрольна сума:
(MD5):7b13b1df69487000fd22fd74753ce9f0
10.17721/2706-9699.2025.1.06