تحلیل کارآیی الگوریتم‌های ماشین بردار پشتیبان، جنگل تصادفی و حداکثر احتمال در شناسایی کاربری اراضی منطقۀ کلان‌شهری مشهد

نوع مقاله : مقاله پژوهشی

نویسندگان

گروه جغرافیا، دانشکده ادبیات و علوم انسانی، دانشگاه فردوسی مشهد، مشهد، ایران

چکیده

سابقه و هدف: ازآنجاکه ارزش و امکان استفاده از هر نقشۀ تولیدشده براساس تصاویر ماهواره‌ای با توجه به میزان صحت آن مشخص می‌شود، ارزیابی صحت روش طبقه‌بندی تصاویر ماهواره‌ای دارای اهمیت چشمگیری است. ازاین‌رو این پژوهش با هدف تحلیل کارآیی الگوریتم‌های ماشین بردار پشتیبان (SVM)، جنگل تصادفی (RF) و حداکثر احتمال (MLC)، در شناسایی کاربری و پوشش اراضی (LULC) منطقۀ کلان‌شهری مشهد انجام شده است. تا به امروز الگوریتم‌های بسیار زیادی، به‌منظور طبقه‌بندی تصاویر ماهواره‌ای، توسعه یافته‌اند که عملکرد آن‌ها، در شرایط گوناگون، متفاوت است. به‌همین‌دلیل در این پژوهش، ابتدا با مروری بر پژوهش‌های پیشین، پرکاربردترین الگوریتم‌ها شناسایی شده و سپس، با سنجش ویژگی‌های انواع طبقه‌بندی‌کننده‌ها، سه الگوریتم ماشین بردار پشتیبان و جنگل تصادفی و حداکثر احتمال انتخاب شده است. با توجه به اینکه مطالعات متعدد نشان داده است دقت نقشه‌برداری LULC تحت تأثیر زمان و مکان قرار دارد و هریک از پژوهش‌های انجام‌شده نیز بر دقت الگوریتم‌های متفاوتی تأکید کرده‌اند، نتایج آن‌ها درمورد شرایط جغرافیایی ایران تعمیم‌پذیر نیست. ازطرفی، در شرایط ژئومورفولوژیک ایران، پژوهش‌های کافی به‌منظور سنجش دقت الگوریتم‌های طبقه‌بندی انجام نشده و اغلب مطالعات صحت‌سنجی الگوریتم‌ها در نمونه‌های موردی خارج از ایران انجام شده است. ازاین‌رو با توجه به تفاوت نتایج الگوریتم‌ها در شرایط گوناگون، بررسی دقت و عملکرد الگوریتم‌ها با تمرکز بر منطقۀ وسیع و متنوع کلان‌شهری مشهد می‌تواند نتایج بدیع و جالب‌توجهی به‌همراه داشته باشد.
مواد و روش‌ها: روش تحقیق حاضر، ازمنظر هدف، کاربردی و ازمنظر ماهیت، توصیفی‌ تحلیلی است. گردآوری اطلاعات در این پژوهش به‌روش اسنادی‌ کتابخانه‌ای انجام شده است. در این مطالعه، تصویر سنجندۀ OLI در ماهوارۀ لندست‌ 8 تهیه شده است. طبقه‌بندی تصاویر ماهواره‌ای در دو مرحلۀ پیش‌پردازش و پردازش تصاویر انجام شده و پس‌از ارزیابی صحت طبقه‌بندی تصاویر با استفاده از ضریب کاپا، ماتریس اختلاط، ضریب تغییرات و ضرایب User's accuracy و Producer's accuracy، بهترین الگوریتم در طبقه‌بندی کاربری‌های منطقۀ کلان‌شهری مشهد مشخص شد؛ این کاربری‌ها شامل پنج دسته و بدین‌قرار است: 1) مناطق ساخته‌شده؛ 2) اراضی بایر؛ 3) مناطق کوهستانی؛ 4) فضاهای سبز؛ 5) پهنه‌های آبی.
نتایج و بحث: نتایج حاصل ارزیابی انحراف معیار (SD) و ضریب تغییرات (CV) درصد سهم مساحت در یک کلاس LULC با استفاده از الگوریتم‌های گوناگون نشان می‌دهد که اراضی بایر با دقت بیشتر و پهنه‌های آبی و فضاهای سبز با دقت کمتری طبقه‌بندی شده‌‌اند. نتایج بررسی ضرایب U_Accuracy و P_Accuracy نشان می‌دهد که به‌طور کلی، صحت طبقه‌بندی دسته‌ها در تمامی الگوریتم‌های مورد مطالعه، در بازۀ خوب تا عالی قرار می‌گیرد. اما بررسی دقیق‌تر این الگوریتم‌ها نشان می‌دهد که بیشترین چالش شناسایی طبقه‌ها درمورد مناطق ساخته‌شده، مناطق کوهستانی و فضاهای سبز وجود دارد و شناسایی اراضی بایر با چالش کمتری مواجه است. ضریب کاپا و تحلیل‌های مبتنی‌بر ماتریس اختلاط نیز تنوع در دقت هر طبقه‌بندی‌کنندۀ LULC را نشان می‌دهد. تفاوت در دقت طبقه‌بندی‌کننده‌های مورد استفاده جزئی است اما این تغییرات جزئی اهمیت بسیار چشمگیری درزَمینۀ برنامه‌ریزی LULC دارد. با توجه به اینکه این اختلافات جزئی در کاربری‌های حساسی، مانند مناطق ساخته‌شده و فضاهای سبز دیده می‌شود، انتخاب الگوریتمی دارای بیشترین دقت و کمترین خطا اهمیت ویژه‌ای دارد.
نتیجه‌گیری: نتایج بررسی ضریب کاپا و تحلیل‌های مبتنی‌بر ماتریس اختلاط نشان می‌دهد که رویکرد SVM دقت کلی بیشتر و ضریب کاپای بالاتری از روش‌های RF و MLC دارد؛ به‌گونه‌ای‌ که الگوریتم‌های SVM، RF و MLC به‌ترتیب، دقت کلی معادل 93/0، 88/0 و 80/0% را به دست آورده‌اند. بنابراین ماشین بردار پشتیبان بیشترین دقت و کمترین خطا را در بین طبقه‌بندی‌کننده‌های مورد مطالعه دارد. براین‌اساس که مطالعات متعدد گویای ارتباط میان دقت نقشه‌برداری LULC با زمان و مکان است، درمورد تحقیقات آینده، تحلیل دقت طبقه‌بندی‌کننده‌ها برای شرایط مورفوکلیماتیک و ژئومورفیک متفاوت پیشنهاد می‌شود.

کلیدواژه‌ها


عنوان مقاله [English]

Performance Analysis of Support Vector Machine, Random Forest, and Maximum Likelihood Algorithms in Land Use Classification of the Metropolitan Area of Mashhad

نویسندگان [English]

  • Sajedeh Baghban
  • Mohammad Rahim Rahnama
  • Mohammad Ajza Shokuhi
  • Hossein Vahidi
Dep of Geography, Faculty of Literature and Human Sciences, Ferdowsi University of Mashhad, Mashhad, Iran
چکیده [English]

Introduction: Considering that the value and usability of any map produced from satellite images depend on its accuracy, evaluating the accuracy of satellite image classification methods is of great importance. Therefore, this research aims to analyse the performance of Support Vector Machine (SVM), Random Forest (RF), and Maximum Likelihood Classification (MLC) algorithms in identifying land use and land cover (LULC) in the metropolitan area of Mashhad. Numerous algorithms have been developed for satellite image classification to date, and their performance varies under different conditions. For this reason, this study first identifies the most commonly used algorithms through a review of previous research, and then, by assessing the characteristics of various classifiers, selects the three algorithms: Support Vector Machine, Random Forest, and Maximum Likelihood. There are various studies regarding the performance of different classification algorithms, each yielding different results. Given that multiple studies have shown that LULC mapping accuracy is related to time and location, and that each of these studies has emphasized the accuracy of different algorithms, their results cannot be generalized to the geographical conditions of Iran. On the other hand, there has not been sufficient research in the geomorphological conditions of Iran to assess the accuracy of classification algorithms, and most studies validating these algorithms have been conducted in case studies outside of Iran. Therefore, considering the differences in algorithm results under various conditions, examining the accuracy and performance of these algorithms focusing on the extensive and diverse metropolitan area of Mashhad may yield novel and noteworthy findings.
Materials and Methods: The present research is applied in terms of purpose and descriptive-analytical in terms of nature. Data collection in this study has been conducted through a documentary-library method. In this study, images from the OLI sensor on the Landsat 8 satellite were used. The classification of satellite images was performed in two stages: preprocessing and processing. After assessing the accuracy of the classification using the Kappa coefficient, confusion matrix, coefficient of variation, and User's accuracy and Producer's accuracy coefficients, the best algorithm for classifying land uses in the metropolitan area of Mashhad was determined in five classes: 1- Built-up areas, 2- Barren land, 3- Mountainous areas, 4- Green spaces, and 5- Water bodies. Results and Discussion: The results from the evaluation of standard deviation (SD) and coefficient of variation (CV) regarding the area share percentage in a LULC class by various algorithms indicate that barren lands were classified with higher accuracy, while water bodies and green spaces were classified with lower accuracy. The examination of U_Accuracy and P_Accuracy coefficients shows that the overall accuracy of the classification for all studied algorithms falls within the range of good to excellent. However, a more detailed examination of these algorithms reveals that the greatest challenge in class identification lies in built-up areas, mountainous regions, and green spaces, whereas the identification of barren lands faces fewer challenges. The Kappa coefficient and analyses based on the confusion matrix also demonstrate the variation in accuracy among each LULC classifier. The differences in the accuracy of the classifiers used are marginal, but these slight variations hold significant importance in the context of LULC planning. Given that these marginal differences are evident in sensitive land uses such as built-up areas and green spaces, selecting an algorithm with the highest accuracy and lowest error is of special importance.
 Conclusion: The results of the Kappa coefficient evaluation and confusion matrix analyses indicate that the SVM approach has greater overall accuracy and a higher Kappa coefficient compared to RF and MLC methods. Specifically, the algorithms achieved overall accuracies of 0.93, 0.88, and 0.80, respectively. Therefore, Support Vector Machine demonstrates the highest accuracy and least error among the studied classifiers. Considering that numerous studies have shown that LULC mapping accuracy is related to time and location, it is suggested that future research analyse the accuracy of classifiers under different morphoclimatic and geomorphic conditions.

کلیدواژه‌ها [English]

  • Kaywords: Remote sensing
  • Land use classification
  • Support Vector Machine
  • Random Forest
  • Maximum Likelihood