Використання методів навчання з підкріпленням для генерації оптимальної поведінки агентів

Дата
2023
Автори
Бернада Дмитрий
Назва журналу
ISSN журналу
Назва тому
Видавець
Анотація
Метою даної роботи є застосування методів навчання з підкріпленням для вирішення задачі Mountain Car Problem. Задача полягає в тому, щоб навчити агента (автомобіль) пройти по гірському шляху, враховуючи обмеження його руху. Головна мета полягає в тому, щоб агент навчився максимально оптимально переміщатися на цьому шляху. Результатом даної роботи є навчені агенти, які здатні ефективно переміщатися по гірському шляху в задачі Mountain Car Problem. Це досягається за допомогою використання методів навчання з підкріпленням, які дозволяють агентам самостійно вчитися та виробляти оптимальну стратегію. Новизна роботи полягає в застосуванні цих методів до конкретної задачі гірського автомобіля. Розроблені методи можуть бути використані для навчання агентів у реальних середовищах, де вимагається оптимальна поведінка при подоланні подібних проблем з навігацією. Ключові слова : навчання з підкріпленням, алгоритм PPO, машинне навчання, Mountain Car Problem.
Бібліографічний опис
Галузь знань та спеціальність
Бібліографічний опис
Бернада Д. Використання методів навчання з підкріпленням для генерації оптимальної поведінки агентів : кваліфікаційна робота … бакалавр : 121 Інженерія програмного забезпечення / Бернада Дмитрій. – Київ, 2023. – 40 с.