Принципи роботи великих мовних моделей (LLM)

Лисий, П. О.

doi:10.17721/2706-9699.2025.1.06

Принципи роботи великих мовних моделей (LLM)

Тип публікації :

Стаття

Дата випуску :

17 липня 2025 р.

Автор(и) :

Лисий, П. О.

Київський національний університет імені Тараса Шевченка

Мова основного тексту :

Ukrainian

eKNUTSHIR URL :

https://ir.library.knu.ua/handle/15071834/10878

DOI :

10.17721/2706-9699.2025.1.06

Журнал :

Журнал обчислювальної та прикладної математики

Випуск :

1

ISSN :

2706-9680

Початкова сторінка :

63

Кінцева сторінка :

76

Цитування :

Лисий, П. О. (2025). Принципи роботи великих мовних моделей (LLM). Журнал обчислювальної та прикладної математики, 1, 63–76. https://doi.org/10.17721/2706-9699.2025.1.06

У статтi дослiджено принципи роботи великих мовних моделей (LLM), зокрема механiзм генерацiї наступного токена в процесi автогресивного моделювання. Описано теоретичнi основи нейронних мовних моделей, трансформерну архiтектуру з механiзмом самоуваги, а також роль токенiзацiї та ембеддингу у формуваннi вхiдного представлення тексту. Проаналiзовано основнi методи вибору наступного токена (жадiбне декодування, top-k, top-p семплiнг, температура), їхнiй вплив на стохастичнiсть результатiв i баланс мiж узгодженiстю та креативнiстю. Розглянуто обмеження довжини контексту, джерела тренувальних даних i виклики, пов’язанi з iнтерпретованiстю та ймовiрнiстю «галюцинацiй». Стаття є цiлiсним оглядом архiтектурних та алгоритмiчних рiшень, що лежать в основi генерацiї тексту LLM.

Ключові слова :

large language models...

transformer

autoregressive genera...

tokenization

temperature

probabilistic text mo...

великi мовнi моделi

трансформер

автогресивна генерацi...

токенiзацiя

температура

ймовiрнiсне моделюван...

Галузі знань та спеціальності :

11 Математика та статистика

Галузі науки і техніки (FOS) :

Природничі науки

Тип зібрання :

Publication

Файл(и) :

Формат

Adobe PDF

Розмір :

718.97 KB

Контрольна сума:

(MD5):7b13b1df69487000fd22fd74753ce9f0

Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY

Параметри

Принципи роботи великих мовних моделей (LLM)