Ліндер Ярослав МиколайовичЗолотарьова Марина2023-11-272024-05-142023-11-272023Золотарьова М. Навчання з підкріпленням для генерації оптимальної стратегії агентів на прикладі задачі найшвидшого проходження маршруту транспортним засобом : кваліфікаційна робота … бакалавр : 121 Інженерія програмного забезпечення / Золотарьова Марина. – Київ, 2023. – 41 с.https://ir.library.knu.ua/handle/123456789/5639Об’єкт розроблення програмного засобу : навчання агента для оптимального проходження дистанції у наближених до реального життя умовах. У ході дослідження розглянуто методи обраного способу машинного навчання (обрано спосіб навчання з підкріпленням) і визначено доцільний для обраної задачі; обрано алгоритм для реалізації програми : в якості алгоритму навчання було обрано метод Proximal Policy Optimization (PPO), вибрано необхідні бібліотеки і компоненти та встановлено їх у середовище розробки; створено програму, що створює та навчає агентів розвʼязувати задану задачу у заданих умовах. Встановлено необхідні модулі та здійснена реалізація програми мовою Python. Ключові слова : proximal policy optimization, агент, машинне навчання, навчання з підкріпленням, середовище, стратегія, трек.uaНавчання з підкріпленням для генерації оптимальної стратегії агентів на прикладі задачі найшвидшого проходження маршруту транспортним засобомБакалаврська робота