Параметри
Використання методів навчання з підкріпленням для генерації оптимальної поведінки агентів
Дата випуску :
2023
Автор(и) :
Бернада Дмитрий
Анотація :
Метою даної роботи є застосування методів навчання з підкріпленням для вирішення задачі Mountain Car Problem. Задача полягає в тому, щоб навчити агента (автомобіль) пройти по гірському шляху, враховуючи обмеження його руху. Головна мета полягає в тому, щоб агент навчився максимально оптимально переміщатися на цьому шляху.
Результатом даної роботи є навчені агенти, які здатні ефективно переміщатися по гірському шляху в задачі Mountain Car Problem. Це досягається за допомогою використання методів навчання з підкріпленням, які дозволяють агентам самостійно вчитися та виробляти оптимальну стратегію. Новизна роботи полягає в застосуванні цих методів до конкретної задачі гірського автомобіля.
Розроблені методи можуть бути використані для навчання агентів у реальних середовищах, де вимагається
оптимальна поведінка при подоланні подібних проблем з навігацією.
Ключові слова : навчання з підкріпленням, алгоритм PPO, машинне навчання, Mountain Car Problem.
Результатом даної роботи є навчені агенти, які здатні ефективно переміщатися по гірському шляху в задачі Mountain Car Problem. Це досягається за допомогою використання методів навчання з підкріпленням, які дозволяють агентам самостійно вчитися та виробляти оптимальну стратегію. Новизна роботи полягає в застосуванні цих методів до конкретної задачі гірського автомобіля.
Розроблені методи можуть бути використані для навчання агентів у реальних середовищах, де вимагається
оптимальна поведінка при подоланні подібних проблем з навігацією.
Ключові слова : навчання з підкріпленням, алгоритм PPO, машинне навчання, Mountain Car Problem.
Бібліографічний опис :
Бернада Д. Використання методів навчання з підкріпленням для генерації оптимальної поведінки агентів : кваліфікаційна робота … бакалавр : 121 Інженерія програмного забезпечення / Бернада Дмитрій. – Київ, 2023. – 40 с.
Файл(и) :
Вантажиться...
Формат
Adobe PDF
Розмір :
1.29 MB
Контрольна сума:
(MD5):e96dc6ee59e8cf990a520af2629efba8
Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY-NC