تحلیل کارایی الگوریتم‌های ماشین بردار پشتیبان، جنگل تصادفی و حداکثر احتمال در شناسایی کاربری اراضی منطقه کلان‌شهری مشهد

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشجوی دکتری جغرافیا و برنامه‌ریزی شهری، دانشگاه فردوسی، مشهد، ایران

2 استاد گروه جغرافیا و برنامه‌ریزی شهری، دانشگاه فردوسی مشهد، مشهد، ایران

3 دانشیار گروه جغرافیا و برنامه‌ریزی شهری، دانشگاه فردوسی مشهد، مشهد، ایران

4 استادیار گروه جغرافیا، دانشکده ادبیات و علوم انسانی، دانشگاه فردوسی مشهد، مشهد، ایران

چکیده

سابقه و هدف: با توجه به این که ارزش و قابلیت استفاده از هر نقشه تولید شده از تصاویر ماهواره‌ای به درجه صحت آن بستگی دارد، ارزیابی صحت روش طبقه‌بندی تصاویر ماهواره‌ای از اهمیت بالایی برخوردار است. لذا این پژوهش با هدف تحلیل کارایی الگوریتم‌های ماشین بردار پشتیبان(SVM)، جنگل تصادفی(RF) و حداکثر احتمال(MLC) در شناسایی کاربری و پوشش اراضی(LULC) منطقه کلان‌شهری مشهد انجام شده است. الگوریتم‌های بسیار زیادی به منظور طبقه‌بندی تصاویر ماهواره‌ای تا به امروز توسعه یافته‌اند که عملکرد آن‌ها در شرایط مختلف، متفاوت است. به همین دلیل، در این پژوهش ابتدا با مروری بر پژوهش‌های پیشین، پرکاربردترین الگوریتم‌ها مورد شناسایی قرار گرفته و سپس با سنجش ویژگی‌های انواع طبقه‌بندی کننده‌ها، سه الگوریتم ماشین بردار پشتیبان، جنگل تصادفی و حداکثر احتمال انتخاب شده است. با توجه به این که مطالعات متعدد نشان داده است که دقت نقشه برداری LULC با زمان و مکان در ارتباط است و هر یک از پژوهش‌های انجام شده نیز بر دقت الگوریتم‌های متفاوتی تاکید کرده‌اند. لذا نتایج آن‌ها برای شرایط جغرافیایی ایران قابل تعمیم نیست. از طرفی در شرایط ژئومورفولوژیک ایران، پژوهش‌های کافی به منظور سنجش دقت الگوریتم‌های طبقه‌بندی انجام نشده است و اغلب مطالعات صحت سنجی الگوریتم‌ها در نمونه‌های موردی خارج از ایران انجام شده است. لذا با توجه به تفاوت نتایج الگوریتم‌ها در شرایط متفاوت، بررسی دقت و عملکرد الگوریتم‌ها با تمرکز بر منطقه وسیع و متنوع کلان‌شهری مشهد، می‌تواند نتایج بدیع و جالب توجهی را به همراه داشته باشد.

مواد و روش‌ها: روش تحقیق حاضر از منظر هدف، کاربردی و از منظر ماهیت، توصیفی_تحلیلی است. گردآوری اطلاعات در این پژوهش به روش اسنادی_کتابخانه‌ای انجام شده است. در این مطالعه تصویر سنجندهOLI در ماهواره لندست 8 تهیه شده است. طبقه بندی تصاویر ماهواره‌ای در دو مرحله پیش پردازش و پردازش تصاویر انجام شده و پس از ارزیابی صحت طبقه بندی تصاویر با استفاده از ضریب کاپا، ماتریس اختلاط، ضریب تغییرات و ضرایب User's accuracy و Producer's accuracy، بهترین الگوریتم در طبقه‌بندی کاربری‌های منطقه کلان‌شهری مشهد در در 5 طبقه 1- مناطق ساخته شده 2- اراضی بایر 3- مناطق کوهستانی 4-فضاهای سبز و 5- پهنه ه‌های آبی مشخص شد.

نتایج و بحث: نتایج حاصل ارزیابی انحراف معیار (SD) و ضریب تغییرات (CV) درصد سهم مساحت در یک کلاس LULC توسط الگوریتم‌های مختلف نشان می‌دهد که اراضی بایر با دقت بیش‌تر و پهنه‌های آبی و فضاهای سبز با دقت کم‌تری طبقه-بندی شده‌‌اند. نتایج بررسی ضرایب U_Accuracy و P_Accuracy نشان می‌دهد که به طور کلی صحت طبقه‌بندی طبقات در تمام الگوریتم‌های مورد مطالعه در بازه بین خوب تا عالی قرار می‌گیرد. اما بررسی دقیق تر این الگوریتم‌ها نشان می‌دهد که بیش‌ترین چالش شناسایی طبقه برای مناطق ساخته شده، مناطق کوهستانی و فضاهای سبز است و شناسایی اراضی بایر با چالش کمتری مواجه است. ضریب کاپا و تحلیل‌های مبتنی بر ماتریس اختلاط نیز تنوع در دقت هر طبقه‌بندی کننده LULC را نشان می‌دهد. تفاوت در دقت طبقه‌بندی‌کننده‌های مورد استفاده جزئی است، اما این تغییرات جزئی اهمیت بسیار مهمی در زمینه برنامه ریزی LULC دارد. با توجه به این که این اختلافات جزیی در کاربری‌های حساسی مانند مناطق ساخته شده و فضاهای سبز دیده می‌شود، لذا انتخاب الگوریتمی با بیشترین دقت و کمترین خطا از اهمیت ویژه‌ای برخوردار است.

نتیجه گیری: نتایج بررسی ضریب کاپا و تحلیل‌های مبتنی بر ماتریس اختلاط نشان می‌دهد که رویکرد SVM دارای دقت کلی بیشتری و ضریب کاپای بالاتری نسبت به روش‌های RF و MLCاست. به‌طوری‌که الگوریتم‌های SVM، RF و MLC به‌ترتیب دقت کلی معادل93/0، 88/0 و 80/0 درصد را به دست آورده‌اند. لذا، ماشین بردار پشتیبان بالاترین دقت و کمترین خطا را در بین طبقه‌بندی‌کننده‌های مورد مطالعه دارد. با توجه به این که مطالعات متعدد نشان داد که دقت نقشه برداری LULC با زمان و مکان در ارتباط است. بنابراین، برای تحقیقات آینده، آنالیز دقت طبقه‌بندی‌کننده‌ها برای شرایط مورفوکلیماتیک و ژئومورفیک متفاوت پیشنهاد می‌شود.

کلیدواژه‌ها


عنوان مقاله [English]

"Performance analysis of Support Vector Machine, Random Forest, and Maximum Likelihood algorithms in land use classification of the metropolitan area of Mashhad."

نویسندگان [English]

  • sajedeh baghban 1
  • Mohammad Rahim Rahnama 2
  • Mohammad Ajza Shokuhi 3
  • Hossein Vahidi 4
1 Ph.D. student of Geography and Urban Planning, Faculty of Literature and Humanities, Ferdowsi University, Mashhad, Iran
2 Professor of Urban Planning and Geography, Department of Geography, Ferdowsi University of Mashhad, Mashhad, Iran,
3 Associate professor of Urban Planning and Geography, Department of Geography, Ferdowsi University of Mashhad, Mashhad, Iran
4 Assistant professor of Geography Department, The Faculty of Literature and Human Sciences, Ferdowsi University of Mashhad, Mashhad, Iran
چکیده [English]

Introduction: Considering that the value and usability of any map produced from satellite images depend on its accuracy, evaluating the accuracy of satellite image classification methods is of great importance. Therefore, this research aims to analyse the performance of Support Vector Machine (SVM), Random Forest (RF), and Maximum Likelihood Classification (MLC) algorithms in identifying land use and land cover (LULC) in the metropolitan area of Mashhad. Numerous algorithms have been developed for satellite image classification to date, and their performance varies under different conditions. For this reason, this study first identifies the most commonly used algorithms through a review of previous research, and then, by assessing the characteristics of various classifiers, selects the three algorithms: Support Vector Machine, Random Forest, and Maximum Likelihood. There are various studies regarding the performance of different classification algorithms, each yielding different results. Given that multiple studies have shown that LULC mapping accuracy is related to time and location, and that each of these studies has emphasized the accuracy of different algorithms, their results cannot be generalized to the geographical conditions of Iran. On the other hand, there has not been sufficient research in the geomorphological conditions of Iran to assess the accuracy of classification algorithms, and most studies validating these algorithms have been conducted in case studies outside of Iran. Therefore, considering the differences in algorithm results under various conditions, examining the accuracy and performance of these algorithms focusing on the extensive and diverse metropolitan area of Mashhad may yield novel and noteworthy findings.

Materials and Methods: The present research is applied in terms of purpose and descriptive-analytical in terms of nature. Data collection in this study has been conducted through a documentary-library method. In this study, images from the OLI sensor on the Landsat 8 satellite were used. The classification of satellite images was performed in two stages: preprocessing and processing. After assessing the accuracy of the classification using the Kappa coefficient, confusion matrix, coefficient of variation, and User's accuracy and Producer's accuracy coefficients, the best algorithm for classifying land uses in the metropolitan area of Mashhad was determined in five classes: 1- Built-up areas, 2- Barren land, 3- Mountainous areas, 4- Green spaces, and 5- Water bodies.

Results and Discussion: The results from the evaluation of standard deviation (SD) and coefficient of variation (CV) regarding the area share percentage in a LULC class by various algorithms indicate that barren lands were classified with higher accuracy, while water bodies and green spaces were classified with lower accuracy. The examination of U_Accuracy and P_Accuracy coefficients shows that the overall accuracy of the classification for all studied algorithms falls within the range of good to excellent. However, a more detailed examination of these algorithms reveals that the greatest challenge in class identification lies in built-up areas, mountainous regions, and green spaces, whereas the identification of barren lands faces fewer challenges. The Kappa coefficient and analyses based on the confusion matrix also demonstrate the variation in accuracy among each LULC classifier. The differences in the accuracy of the classifiers used are marginal, but these slight variations hold significant importance in the context of LULC planning. Given that these marginal differences are evident in sensitive land uses such as built-up areas and green spaces, selecting an algorithm with the highest accuracy and lowest error is of special importance.



Conclusion: The results of the Kappa coefficient evaluation and confusion matrix analyses indicate that the SVM approach has greater overall accuracy and a higher Kappa coefficient compared to RF and MLC methods. Specifically, the algorithms achieved overall accuracies of 0.93, 0.88, and 0.80, respectively. Therefore, Support Vector Machine demonstrates the highest accuracy and least error among the studied classifiers. Considering that numerous studies have shown that LULC mapping accuracy is related to time and location, it is suggested that future research analyse the accuracy of classifiers under different morphoclimatic and geomorphic conditions.

کلیدواژه‌ها [English]

  • Remote sensing
  • land use classification
  • Support Vector Machine
  • Random Forest
  • Maximum Likelihood