ارزیابی کارایی مدل‌های U-Net و XGBoost در استخراج اطلاعات پای ساختمان

نوع مقاله : علمی - پژوهشی

نویسندگان

1 دانشکده مهندسی نقشه برداری و اطلاعات مکانی، دانشکدگان فنی، دانشگاه تهران، تهران، ایران

2 دانشکده نقشه برداری و اطلاعات مکانی، دانشکدگان فنی، دانشگاه تهران، تهران، ایران

3 دانشکده مهندسی نقشه‌برداری، دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایران

چکیده

سابقه و هدف: اطلاعات پای ساختمان، به عنوان یکی از مهم‌ترین عناصر داده‌های مکانی، نقش کلیدی در بسیاری از کاربردهای شهری از جمله برنامه‌ریزی شهری، مدیریت زیرساخت‌ها، مطالعات زیست‌محیطی و توسعه پایدار ایفا می‌کند . دسترسی به این اطلاعات به‌صورت دقیق و به‌روز، می‌تواند بستر مناسبی را برای تصمیم‌گیری‌های مدیریتی فراهم آورد. استخراج این اطلاعات از تصاویر هوایی و ماهواره‌ای با وضوح بالا، یکی از چالش‌های اصلی در حوزه سنجش‌ازدور و تحلیل داده‌های مکانی است. در سال‌های اخیر، الگوریتم‌های یادگیری ماشین و یادگیری عمیق به‌عنوان ابزارهای پیشرفته برای حل این مسئله مورد توجه قرار گرفته‌اند. هدف اصلی این تحقیق، مقایسه عملکرد دو رویکرد رایج در حوزه‌ی هوش مصنوعی، مدل‌های یادگیری عمیق و یادگیری ماشین، برای استخراج اطلاعات پای ساختمان از تصاویر هوایی با قدرت تفکیک مکانی بالا می‌باشد. درهمین راستا مدل U-Net و مدل XGBoost مورد بررسی قرار گرفتند تا با ارزیابی جامع این دو مدل از نظر دقت، توانایی تشخیص مرزهای دقیق ساختمان و سایر معیارهای کمی، به انتخاب مناسب‌ترین روش برای کاربردهای عملی در حوزه‌ی سیستم اطلاعات جغرافیایی کمک کند.



مواد و روش‌ها: برای انجام این مطالعه، مجموعه داده‌ای شامل تصاویر هوایی از چهار شهر مختلف شامل شیکاگو، پاریس، زوریخ و برلین مورد استفاده قرار گرفت. این تصاویر از تنوع مکانی و ساختاری مناسبی برخوردار بوده و اطلاعات پای ساختمان آن‌ها از داده‌های متن‌باز تهیه گردیده است. تصاویر اولیه به قطعاتی با اندازه ۵۱۲×۵۱۲ پیکسل تقسیم شده و ماسک‌های متناظر ساختمان‌ها نیز تولید شدند. سپس داده‌ها به سه بخش آموزشی با ۷۰٪ داده‌ها، اعتبارسنجی با ۲۰٪ داده‌ها و تست با ۱۰٪ داده‌ها تفکیک گردیدند. مدل U-Net با استفاده از تابع خطای Binary Cross Entropy و بهینه‌سازی توسط الگوریتم Adam آموزش دید. در سوی دیگر، مدل XGBoost که بر اساس ترکیب درخت‌های تصمیم تقویت‌شده با گرادیان کار می‌کند، با استفاده از استخراج ویژگی‌های عددی از تصاویر و تنظیم پارامترهای مختلف از جمله عمق درخت، نرخ یادگیری و تعداد درخت‌ها آموزش داده شد. پارامترهای مدل XGBoost از طریق جستجوی گرید انتخاب گردیدند.



نتایج و بحث: برای ارزیابی عملکرد هر دو مدل، از پنج معیار اصلی شامل دقت، اجتماع روی اشتراک، دقت، یادآوری و امتیاز F1 استفاده شد. نتایج نشان داد که مدل U-Net در تمامی معیارهای ارزیابی، عملکرد بهتری نسبت به مدل XGBoost ارائه داده است. به طور مشخص، مقادیر IoU و Accuracy به ترتیب برای مدل U-Net برابر با 67.74% و 87.95% و برای مدل XGBoost برابر با 55.07% و 75.67% گزارش شده است. همچنین مدل U-Net توانسته است با حفظ اطلاعات مکانی و ساختاری دقیق ساختمان‌ها، مرزهای آنها را به‌طور کامل‌تر تشخیص دهد. مدل U-Net به دلیل معماری خاص آن که شامل اتصالات مستقیم بین بخش‌های رمزگذار و رمزگشا است، به مدل این امکان را می‌دهد تا ویژگی‌های تصویر را به‌صورت مستقیم، بدون نیاز به مهندسی ویژگی‌های به صورت دستی، از از تصاویر استخراج کند. با این حال، مصرف بالای منابع محاسباتی و نیاز به داده‌های آموزشی زیاد از چالش‌های مدل‌های یادگیری عمیق محسوب می‌شود. در سوی دیگر، مدل XGBoost با وجود سادگی نسبی و سرعت بالاتر، به دلیل وابستگی به ویژگی‌های عددی استخراج‌شده و ناتوانی در پردازش مستقیم تصاویر، در تشخیص مرزهای دقیق ساختمان، به‌ویژه در مناطق شهری با تراکم بالا و مرزهای نامنظم، عملکرد ضعیف‌تری از خود نشان داد. این مدل در برخی موارد نتوانست بین ساختمان‌ها و سایر عوارض مشابه تمایز دقیقی قائل شود.



جمع‌بندی: نتایج این تحقیق بیانگر آن است که برای کاربردهایی مانند استخراج دقیق اطلاعات پای ساختمان از تصاویر هوایی، به‌ویژه در مناطق با ساختارهای پیچیده و متراکم شهری، مدل‌های یادگیری عمیق مانند U-Net عملکرد به مراتب بهتری نسبت به مدل‌های یادگیری ماشین مانند XGBoost دارند. با این حال، در شرایطی که داده‌های آموزشی محدود و منابع محاسباتی در دسترس نباشد، استفاده از مدل‌های سبک‌تر مانند XGBoost نیز می‌تواند مفید واقع شود. در نهایت، پیشنهاد می‌شود در تحقیقات آینده، از رویکردهای ترکیبی بهره گرفته شود تا بتوان از مزایای هر دو مدل بهره‌برداری کرده و دقت استخراج اطلاعات مکانی را افزایش داد.

کلیدواژه‌ها


عنوان مقاله [English]

Evaluating the efficiency of U-Net and XGBoost models in extracting building footprint information

نویسندگان [English]

  • Ehsan Haghighi Gashti 1
  • Mohsen Niroomand 2
  • Mohammad Javad Valadan Zoej 3
1 School of Surveying and Geospatial Engineering, College of Engineering, University of Tehran, Tehran, Iran
2 School of Surveying and Geospatial Engineering, College of Engineering, University of Tehran, Tehran, Iran
3 Faculty of Geomatics Engineering, K. N. Toosi University of Technology, Tehran, Iran
چکیده [English]

Introduction: Building footprint information, as one of the most important elements of spatial data, plays a key role in many urban applications, including urban planning, infrastructure management, environmental studies, and sustainable development (Haghighi Gashti et al., 2024; Zhao & Wang, 2014). Accurate and up-to-date access to this information can provide a suitable foundation for managerial decision-making. Extracting this information from high-resolution aerial and satellite images is one of the main challenges in the field of remote sensing and spatial data analysis (Bittner et al., 2018). In recent years, machine learning and deep learning algorithms have gained attention as advanced tools to address this problem. The main objective of this research is to compare the performance of two common approaches in the field of artificial intelligence—deep learning and machine learning models—for extracting building footprint information from high spatial resolution aerial images. In this regard, the U-Net model and the XGBoost model were examined to comprehensively evaluate these two models in terms of accuracy, the ability to detect precise building boundaries, and other quantitative metrics, with the aim of selecting the most appropriate method for practical applications in the field of geographic information systems.



Materials and Methods: For this study, a dataset consisting of aerial images from four different cities—Chicago, Paris, Zurich, and Berlin—was used. These images featured appropriate spatial and structural diversity, and their building footprint information was obtained from open-source data. The initial images were divided into patches of 512×512 pixels, and corresponding building masks were also generated. The data were then split into three parts: training (70%), validation (20%), and testing (10%). The U-Net model was trained using the Binary Cross Entropy loss function and optimized with the Adam algorithm. On the other hand, the XGBoost model, which is based on the combination of gradient-boosted decision trees, was trained using numerical feature extraction from images and tuning of various parameters, including tree depth, learning rate, and the number of trees. The XGBoost model parameters were selected through grid search.



Results and Discussion: To evaluate the performance of both models, five main metrics were used: precision, Intersection over Union (IoU), accuracy, recall, and F1-score. The results showed that the U-Net model outperformed the XGBoost model in all evaluation metrics. Specifically, the IoU and Accuracy values for the U-Net model were reported as 67.74% and 87.95%, respectively, while for the XGBoost model, they were 55.07% and 75.67%. Additionally, the U-Net model was able to more completely detect the boundaries of buildings while preserving the spatial and structural information of the buildings. Due to its specific architecture—which includes direct connections between the encoder and decoder parts—the U-Net model can extract image features directly without the need for manual feature engineering. However, high computational resource consumption and the requirement for large training datasets are among the challenges of deep learning models. On the other hand, although the XGBoost model is relatively simple and faster, it showed weaker performance in detecting precise building boundaries, especially in urban areas with high density and irregular boundaries, due to its dependency on extracted numerical features and its inability to directly process images. In some cases, this model failed to accurately distinguish between buildings and other similar objects.



Conclusion: The results of this study indicate that for applications such as precise extraction of building footprint information from aerial images—especially in areas with complex and dense urban structures—deep learning models like U-Net perform significantly better than machine learning models like XGBoost. However, in situations where training data are limited and computational resources are not available, using lighter models like XGBoost can also be beneficial. Finally, it is recommended that future research employ hybrid approaches to leverage the advantages of both models and improve the accuracy of spatial information extraction.

کلیدواژه‌ها [English]

  • Building Footprint
  • Machine Learning
  • Deep Learning
  • U-Net
  • XGBoost