Application of machine learning methods and remote sensing data for crop yield forecasting

Зацерковний, Віталій ІвановичВіталій ІвановичЗацерковний0009-0003-5187-6125Ворох, Віктор ВасильовичВіктор ВасильовичВорох0009-0005-0112-8422Глоба, ОльгаОльгаГлобаЛященко, Олеся АнатолілївнаОлеся АнатолілївнаЛященко0000-0003-4649-3667Сюйва, Ірина СергіїівнаІрина СергіїівнаСюйва0000-0002-5001-2750Application of machine learning methods and remote sensing data for crop yield forecastingЗастосування методів машинного навчання та даних дистанційного зондування Землі в прогнозуванні врожайностіКиївський національний університет імені Тараса Шевченка2025artificial intelligence (AI)machine learning (ML)remote sensing (RS)random forest (RF)gradient boosting (GB)normalized difference moisture index (NDMI)green normalized difference vegetation index (GNDVI)precision agriculture (PA)Correlation Analysis (CA)штучний інтелект (ШІ)машинне навчання (ML)дистанційне зондування Землі (ДЗЗ)прецизійне землеробство (PZ)кореляційний аналіз (КА)My UniversityMy University2026-03-202026-03-202025-12-16enСтаття[APA 7] Зацерковний, В. І., Ворох, В. В., Глоба, О., Лященко, О. А., & Сюйва, І. С. (2025). Application of machine learning methods and remote sensing data for crop yield forecasting. Вісник Київського національного університету імені Тараса Шевченка. Геологія, (4(111)), 114–121. https://doi.org/10.17721/1728-2713.111.13[ДСТУ] Application of machine learning methods and remote sensing data for crop yield forecasting / В. І. Зацерковний et al. Вісник Київського національного університету імені Тараса Шевченка. Геологія. 2025. no. 4(111). P. 114—121. DOI: 10.17721/1728-2713.111.13 (date of access: 25.07.2026).UDC 005.631.11:00410.17721/1728-2713.111.13https://ir.library.knu.ua/handle/15071834/13632Creative Commons Attribution 4.0 Internationalhttps://creativecommons.org/licenses/by/4.0/Background. Forecasting agricultural crop yields has always been a complex task, particularly in the context of climate instability and increasing pressure on resources. Given the limitations of classical mathematical models in such a complex field as agricultural analytics, data-driven approaches and machine learning-based methods are becoming increasingly important. The combination of satellite imagery, agrochemical soil analysis, and artificial intelligence algorithms is particularly promising for building flexible and accurate forecasts. Methods. This study analyzes two agricultural fields located in different regions of Ukraine with varying natural conditions. A comprehensive dataset was collected, including topographic features (elevation, slope, topographic wetness index), spectral indices from Sentinel-2A and Landsat 8 satellites (specifically, NDMI and GNDVI), and soil chemical composition. Correlation analysis was used to identify which indicators are most closely associated with yield levels. Yield prediction models were developed using Random Forest and Gradient Boosting algorithms, adapted to field subplots of 5 ha and 1 ha. Results. The analysis revealed that vegetation condition and crop water balance (NDMI, GNDVI) are the most effective indicators in explaining yield variability. Meanwhile, surface temperature showed a clearly negative impact, suggesting potential heat stress during the grain filling periods. Gradient Boosting demonstrated particularly high sensitivity to spatial detail, reaching a prediction accuracy of R²=0.801 at the 1 ha grid level. In contrast, Random Forest proved to be a robust method with lower sensitivity to data scale. Conclusions. The study demonstrates that combining satellite imagery, soil analysis results, and machine learning methods can significantly improve the accuracy of crop yield prediction. The developed models incorporate vegetation indices along with factors describing crop growing conditions. A comparison of various algorithms was also conducted under different levels of spatial detail. The results indicate that the proposed approach can be effectively applied in precision agriculture, particularly for agronomic planning and crop monitoring.Вступ. Прогнозування врожайності сільськогосподарських культур завжди було непростим завданням, особливо в умовах кліматичної нестабільності та зростаючого тиску на ресурси. Зважаючи на обмеження класичних математичних моделей у такій складній галузі, як аграрна аналітика, нині все більшої ваги набувають підходи, основані на даних і машинному навчанні. Особливо перспективним виглядає поєднання супутникових знімків, агрохімічного аналізу ґрунтів та алгоритмів штучного інтелекту для побудови гнучких і точних прогнозів. Методи. Проаналізовано два сільськогосподарські поля, розташовані в різних регіонах України, із різними природними умовами. Було зібрано масив даних: топографічні параметри (висота, ухил, водозбірний потенціал), спектральні індекси із супутників Sentinel-2A та Landsat 8 (зокрема, NDMI, GNDVI), а також хімічний склад ґрунту. За допомогою кореляційного аналізу визначено, які саме показники тісніше пов'язані з рівнем урожайності. Побудовано моделі прогнозу врожайності на основі Random Forest та Gradient Boosting, з адаптацією під розділення полів на підділянки розміром 5 та 1 га. Результати. Аналіз показав, що стан вегетації та водний баланс культури (NDMI, GNDVI) найкраще пояснюють варіації врожайності. Водночас такі показники, як температура поверхні, мають чіткий негативний вплив, що може вказувати на тепловий стрес у періоди наливу зерна. Gradient Boosting продемонстрував особливо добру чутливість до просторової деталізації – на сітці 1 га точність прогнозу досягала R² = 0,801. Натомість Random Forest показав себе як стійкий і менш чутливий до масштабу даних метод. Висновки. У досліджені доведено, що поєднання супутникових знімків, результатів аналізу ґрунтів та методів машинного навчання дає змогу поліпшити точність прогнозування врожайності. У моделі включено показники вегетації та характеристики умов вирощування культур. Також проведено порівняння різних алгоритмів при різній деталізації просторових даних. Отримані результати свідчать про те, що запропонований підхід може бути корисним у практиці точного землеробства, особливо для агрономічного планування та моніторингу посівів.