Параметри
Принципи роботи великих мовних моделей (LLM)
Тип публікації :
Стаття
Дата випуску :
17 липня 2025 р.
Автор(и) :
Мова основного тексту :
Ukrainian
eKNUTSHIR URL :
Випуск :
1
ISSN :
2706-9680
Початкова сторінка :
63
Кінцева сторінка :
76
Цитування :
Лисий, П. О. (2025). Принципи роботи великих мовних моделей (LLM). Журнал обчислювальної та прикладної математики, 1, 63–76. https://doi.org/10.17721/2706-9699.2025.1.06
У статтi дослiджено принципи роботи великих мовних моделей (LLM), зокрема механiзм генерацiї наступного токена в процесi автогресивного моделювання. Описано теоретичнi основи нейронних мовних моделей, трансформерну архiтектуру з механiзмом самоуваги, а також роль токенiзацiї та ембеддингу у формуваннi вхiдного представлення тексту. Проаналiзовано основнi методи вибору наступного токена (жадiбне декодування, top-k, top-p семплiнг, температура), їхнiй вплив на стохастичнiсть результатiв i баланс мiж узгодженiстю та креативнiстю. Розглянуто обмеження довжини контексту, джерела тренувальних даних i виклики, пов’язанi з iнтерпретованiстю та ймовiрнiстю «галюцинацiй». Стаття є цiлiсним оглядом архiтектурних та алгоритмiчних рiшень, що лежать в основi генерацiї тексту LLM.
Галузі знань та спеціальності :
11 Математика та статистика
Галузі науки і техніки (FOS) :
Природничі науки
Тип зібрання :
Publication
Файл(и) :
Вантажиться...
Формат
Adobe PDF
Розмір :
718.97 KB
Контрольна сума:
(MD5):7b13b1df69487000fd22fd74753ce9f0
Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY
10.17721/2706-9699.2025.1.06