یک چارچوب ترکیبی برای غنی سازی جاینامه های شهری با استخراج اطلاعات جغرافیایی از آگهی های املاک

نوع مقاله : مقاله پژوهشی

نویسندگان

گروه GIS، دانشکده مهندسی نقشه برداری، تهران، ایران

چکیده

مقدمه: جاینام‌ها به عنوان یکی از رایج‌ترین اشکال اطلاعات جغرافیایی نهفته در متون زبان طبیعی، در منابع مختلفی همچون رسانه‌های اجتماعی، اخبار، آرشیوهای تاریخی و آگهی‌های املاک به‌کار می‌روند. این نام‌ها در قالب‌های گوناگونی نظیر نشانی کسب‌وکار، هشتگ، یا متن ساده ممکن است دیده شوند. به‌هنگام بودن داده‌ها، دربرگرفتن تجربه و شناخت انسانی، و دربرداشتن انواع خاصی از اطلاعات مکانی که صرفاً در منابع متنی موجود هستند، این منابع را برای تحلیل‌های جغرافیایی بسیار ارزشمند ساخته است. از این رو، نگاشت نام مکان‌ها به موقعیت جغرافیایی آن‌ها یک امر ضروری است. یکی از راه‌‌کارهای موجود، استفاده از جاینامه‌های رقمی است که در واقع فرهنگ لغتی از نام‌ مکان‌ها هستند. این منابع ارزشمند به سامانه‌های بازیابی اطلاعات جغرافیایی (GIR) امکان شناسایی جاینام‌ها و تبدیل موارد شناسایی‌شده به مختصات جغرافیایی را می‌دهند. با توجه به کاربردهای روزافزون مکانی، به‌ویژه در GIR و خدمات مبتنی بر مکان (LBS)، جاینامه‌های رقمی باید غنی‌سازی شوند.

مواد و روش‌ها: این مقاله چارچوبی سه‌لایه برای استخراج اطلاعات جغرافیایی شهری از آگهی‌های املاک که کدگذاری مکانی شده‌اند را ارائه می‌دهد. لایه نخست به استخراج نام‌های مکان مربوط به خیابان‌های اصلی و محله‌ها اختصاص دارد که به‌دلیل شناخته‌شده بودنشان، معمولاً بدون هیچ سرنخ زبانی توسط نویسندگان نوشته می‌شوند. با استفاده از یک مدل جنگل تصادفی مبتنی بر مجموعه‌ای از معیارهای مکانی برای هر ان‌گرم استخراج‌شده از محتوای متنی آگهی‌ها، می‌توان خیابان‌های اصلی و محله‌ها را شناسایی کرد. این لایه با استخراج ان‌گرم‌ها از آگهی‌های وبکاوی‌شده آغاز می‌شود. با توجه به اینکه هر ان‌گرم ممکن است به چند ناحیه از شهر اشاره کند، خوشه‌بندی مکانی پس از پاک‌سازی و استانداردسازی مجموعه ان‌گرم‌ها اعمال می‌گردد. معیارهای مکانی تعریف‌شده برای هر خوشه شناسایی‌شده ان‌گرم محاسبه می‌شوند. سپس یک مدل جنگل تصادفی برای شناسایی ان‌گرم‌های محله و خیابان اصلی به کار گرفته می‌شود. در لایه دوم، یک مدل مبتنی بر قواعد برای استخراج همه نام‌های مکان شهری توسعه یافته و در لایه سوم، یک مدل مبتنی بر الگوهای زبانی برای استخراج روابط مکانی طراحی شده است. این پژوهش بر زبان فارسی و کلان‌شهرهای تهران، مشهد، اصفهان و شیراز تمرکز دارد.

نتایج و بحث: نتایج برای لایه اول با دستیابی به حدود 8/0 و 7/0 به‌ترتیب برای بازیابی و دقت در پیش‌بینی خیابان‌های اصلی و محله‌ها در کلان‌شهری دیگر رضایت‌بخش است. با این حال، تفاوت در جمعیت و الگوهای توسعه شهری باعث شده است که به خاطر شناسایی خیابان‌های اصلی به عنوان محله و بالعکس، تعداد موارد شناسایی‌شده درست کاهش یابد. در شناسایی جاینام‌های شهری دقت و بازیابی نزدیک به 7/0 کسب شده است. هر چند این مقادیر در مقایسه با عملکرد مدل‌های شناسایی موجودیت‌های اسمی در استخراج جاینام‌های شهری که اغلب ریزدانه هستند، قابل توجه است ولی شناسایی‌های اشتباه در این لایه موجب کاهش دقت و بازیابی در لایه سوم یعنی استخراج روابط مکانی شده است.

نتیجه‌گیری: این پژوهش چارچوبی برای استخراج اطلاعات جغرافیایی شهری از آگهی‌های املاک ارائه می‌کند. این اطلاعات شامل جاینام‌ها و روابط مکانی برای غنی‌سازی جاینامه‌های موجود است. از آنجا که خیابان‌های اصلی و محله‌ها بخشی از نام‌های مکان شناخته‌شده هستند، افراد عموماً آن‌ها را بدون هیچ سرنخی در وب‌سایت‌های آگهی ملکی استفاده می‌کنند. استخراج این نام‌ها را می‌توان با مدل یادگیری ماشینی انجام داد. گام بعدی، استخراج همه نام‌های مکان نوشته‌شده در متن آگهی‌هاست. برای تحقق این هدف، یک مدل مبتنی بر قواعد توسعه داده شده است تا جاینام‌های محتمل را از آگهی‌هایی که موقعیت جغرافیایی‌شان در محدوده پوش محدب نام خیابان اصلی یا محله قرار دارد، استخراج کرده و موارد نادرست را حذف ‌کند. در گام سوم، روابط مکانی بین جاینام‌های شناسایی‌شده از متن هر آگهی با استفاده از الگوهای زبانی استخراج شدند. چارچوب عملکرد خوبی در استخراج خیابان‌های اصلی، محله‌ها، و نام‌های مکان نشان داده است، اما استخراج روابط مکانی نیاز به توسعه بیشتری دارد.

کلیدواژه‌ها


عنوان مقاله [English]

A hybrid framework for enriching urban gazetteers by extracting geographic information from online housing listings

نویسندگان [English]

  • Mahdi Shakhesi
  • Ali Asghar Alesheikh
GIS Department. Geomatics Engineering Faculty, K. N. Toosi University of Technology, Tehran, Iran
چکیده [English]

Introduction: Place names, a common form of embedded geographic information in natural language texts, are used in various resources such as social media, news stories, historical archives, and property listings. The names are presented in different forms like business addresses, hashtags, or simple texts. Providing up-to-date data, carrying human experience and cognition, and containing types of geospatial information only available in tex-tual resources make these resources precious for geospatial analyses. Therefore, mapping place names to their footprints is an essential task. One of the solutions for this task is using a digital gazetteer, a dictionary of place names. These precious resources enable Geographic Information Retrieval (GIR) systems to detect place names (geotagging) and convert the candidate ones to their geographic coordinates (geocoding). To fulfill ever-increasing geospatial demands, especially in GIR and LBSs, digital gazetteers should be enriched.

Materials and Methods: This paper presents a three-tier framework to extract urban geographic information from geotagged housing listings. The first tier is devoted to harvesting main street and neighborhood place names, which the authors usually write without any linguistic clue due to their well-knownness. Using a random forest model based on a set of spatial measures for each extracted n-gram from the textual content of real estate advertisements enables us to identify the main streets and neighborhoods. The first tier commences with the ex-traction of n-grams from the saved advertisements. After cleaning and standardizing the n-gram set, spatial clus-tering is applied, considering that each spatial n-gram can refer to multiple regions of the city. The defined spa-tial predictors are computed for each not-clustered n-gram or split n-gram from its generic cluster. Subsequent-ly, a random forest model identifies the neighborhood and the main street n-grams. We developed a rule-based model to extract all urban place names in the second tier and a linguistic pattern-based model to extract spatial relationships in the third tier. This research focused on the Persian language and Tehran, Mashhad, Isfahan, and Shiraz metropolises from Iran as study regions.

Results and Discussion: The results are encouraging for the first tier, specifically achieving approximately 0.8 and 0.7, respectively, for recall and precision in predicting another metropolis’s main streets and neighborhoods. However, differences in population levels and urban development patterns decreased the performance in identi-fying a neighborhood as a main street or vice versa. For the second tier, precision and recall are near 0.7. Alt-hough these results are notable compared to the performance of named entity recognition models in extracting urban place names which are often fine-grained, errors in this layer have led to reduced precision and recall in the third layer, spatial relation extraction.

Conclusion: Gazetteers are important geospatial resources in GIR tasks, especially in geoparsing. This paper presented a framework for extracting urban geographic information from online property listings. This geo-graphic information includes the place names and the spatial relationships to enrich current gazetteers. Since main streets and neighborhoods as a part of place names are well-known, people mainly use them without any clue on property listing websites. Harvesting these place names can be done using a machine learning-based model. The next step is extracting all place names written in the property advertisement posts. To realize that, we developed a rule-based model to extract potential place names from the posts geographically located in the neighborhood/main street place name’s convex-hull and remove the wrong identified cases. In the third step, we extracted spatial relationships between the place names extracted from each post text based on linguistic patterns. The framework has provided good results in harvesting main streets and neighborhoods and extracting place names. Extracting spatial relationships between the place names needs further work.

کلیدواژه‌ها [English]

  • gazetteer enrichment
  • spatial relationship extraction
  • geographic information retrieval
  • real estate advertisement
  • random forest