Використання методів навчання з підкріпленням для генерації оптимальної поведінки агентів

Ліндер Ярослав МиколайовичБернада Дмитрий2023-11-102024-05-142023-11-102023Бернада Д. Використання методів навчання з підкріпленням для генерації оптимальної поведінки агентів : кваліфікаційна робота … бакалавр : 121 Інженерія програмного забезпечення / Бернада Дмитрій. – Київ, 2023. – 40 с.https://ir.library.knu.ua/handle/123456789/5494Метою даної роботи є застосування методів навчання з підкріпленням для вирішення задачі Mountain Car Problem. Задача полягає в тому, щоб навчити агента (автомобіль) пройти по гірському шляху, враховуючи обмеження його руху. Головна мета полягає в тому, щоб агент навчився максимально оптимально переміщатися на цьому шляху. Результатом даної роботи є навчені агенти, які здатні ефективно переміщатися по гірському шляху в задачі Mountain Car Problem. Це досягається за допомогою використання методів навчання з підкріпленням, які дозволяють агентам самостійно вчитися та виробляти оптимальну стратегію. Новизна роботи полягає в застосуванні цих методів до конкретної задачі гірського автомобіля. Розроблені методи можуть бути використані для навчання агентів у реальних середовищах, де вимагається оптимальна поведінка при подоланні подібних проблем з навігацією. Ключові слова : навчання з підкріпленням, алгоритм PPO, машинне навчання, Mountain Car Problem.uaВикористання методів навчання з підкріпленням для генерації оптимальної поведінки агентівБакалаврська робота