Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Comparing machine learning methods for classification and generation of footprints of buildings from aerial imagery
Blekinge Institute of Technology, Faculty of Computing, Department of Software Engineering.
2019 (English)Independent thesis Advanced level (professional degree), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

The up to date mapping data is of great importance in social services and disaster relief as well as in city planning. The vast amounts of data and the constant increase of geographical changes lead to large loads of continuous manual analysis. This thesis takes the process of updating maps and breaks it down to the problem of discovering buildings by comparing different machine learning methods to automate the finding of buildings. The chosen methods, YOLOv3 and Mask R-CNN, are based on Region Convolutional Neural Network(R-CNN) due to their capabilities of image analysis in both speed and accuracy. The image data supplied by Lantmäteriet makes up the training and testing data; this data is then used by the chosen machine learning methods. The methods are trained at different time limits, the generated models are tested and the results analysed. The results lay ground for whether the model is reasonable to use in a fully or partly automated system for updating mapping data from aerial imagery. The tested methods showed volatile results through their first hour of training, with YOLOv3 being more so than Mask R-CNN. After the first hour and until the eight hour YOLOv3 shows a higher level of accuracy compared to Mask R-CNN. For YOLOv3, it seems that with more training, the recall increases while precision decreases. For Mask R-CNN, however, there is some trade-off between the recall and precision throughout the eight hours of training. While there is a 90 % confidence interval that the accuracy of YOLOv3 is decreasing for each hour of training after the first hour, the Mask R-CNN method shows that its accuracy is increasing for every hour of training,however, with a low confidence and can therefore not be scientifically relied upon. Due to differences in setups the image size varies between the methods, even though they train and test on the same areas; this results in a fair evaluation where YOLOv3 analyses one square kilometre 1.5 times faster than the Mask R-CNN method does. Both methods show potential for automated generation of footprints, however, the YOLOv3 method solely generates bounding boxes, leaving the step of polygonization to manual work while the Mask R-CNN does, as the name implies, create a mask of which the object is encapsulated. This extra step is thought to further automate the manual process and with viable results speed up the updating of map data.

Abstract [sv]

Uppdaterad kartdata är av stor betydelse för sociala tjänster och katastrofhjälp såväl som inom stadsplanering. De enorma mängderna data och den ständiga ökningen av geografiska förändringar leder till mycket arbete för kontinuerlig manuell analys. Denna avhandling kommer att behandla detta problem med att uppdatera kartor, bryta ned det till det specifika problemet att upptäcka byggnader och ur den synvinkelen jämföra olika maskininlärningsmetoder för automatisera detektering av byggnader. De valda metoderna, YOLOv3 och Mask R-CNN, är baserade på Region Convolutional Neural Network (R-CNN) på grund av dess förmåga av bildanalys i både hastighet och träffsäkerhet. Bildmaterial från Lantmäteriet utgör tränings- och testdatan, denna data används sedan av de utvalda maskininlärningmetoderna. Metoderna tränas med olika tidsgränser och de genererade modellerna testas och resultaten analyseras. Resultaten lägger grund för huruvida modellen är rimlig att använda i ett helt eller delvis automatiserat system för uppdatering av kartdata från flygbilder. De testade metoderna visade varierande resultat under sin första timmes träning, med YOLOv3 mer så än Mask R-CNN. Efter den första timmen fram till den åttonde timmen visar YOLOv3 en högre nivå av precision jämfört med Mask R-CNN. För YOLOv3 ser det ut som att mer träning ökar recall samtidigt som precision minskar. För Mask R-CNN är det emellertid en avvägning mellan recall och precision under de åtta timmarnas träning. Medan det finns en 90 % konfidens att accuracy minskar med YOLOv3 för varje timmes träning efter första timmen så visar Mask R-CNN-metoden att dess accuracy ökar för varje timmes träning, det är dock med låg konfidens och har därmed inte vetenskapligt stöd. På grund av skillnader i konfigurationer varierar bildstorleken mellan metoderna, de tränar och testar dock på samma områden för att ge en rättvis jämförelse. I dessa test analyserar YOLOv3 en kvadratkilometer 1.5 gånger snabbare än Mask R-CNN. Båda metoderna visar potential för en automatiserad generering av footprints. Dock så genererar YOLOv3-metoden endast en bounding box, vilket gör att polygoniseringen återstår för manuellt arbete medan Mask R-CNN, som namnet antyder, skapar en mask som objektet inkapslas i. Detta extrasteg är tänkt att automatisera den manuella processen och med rimliga resultat påskynda uppdateringen av kartdata.

Place, publisher, year, edition, pages
2019. , p. 43
Keywords [en]
Machine Learning, Computer Vision, Region Convolutional Neural Network, Geographical Data, Aerial Imagery
National Category
Computer Vision and Robotics (Autonomous Systems)
Identifiers
URN: urn:nbn:se:bth-18543OAI: oai:DiVA.org:bth-18543DiVA, id: diva2:1343605
External cooperation
Lantmäteriet
Subject / course
Degree Project in Master of Science in Engineering 30.0
Educational program
PAACI Master of Science in Game and Software Engineering
Supervisors
Examiners
Available from: 2019-08-19 Created: 2019-08-18 Last updated: 2022-05-12Bibliographically approved

Open Access in DiVA

fulltext(5130 kB)695 downloads
File information
File name FULLTEXT02.pdfFile size 5130 kBChecksum SHA-512
44b5f35b7a070890116760c51b242402eb1824f0924df796b4d0f61adc90cf2a74b4ee0bed0ced3934dbe1c3162f17e4386801f3d7649132265bf620fba22261
Type fulltextMimetype application/pdf

By organisation
Department of Software Engineering
Computer Vision and Robotics (Autonomous Systems)

Search outside of DiVA

GoogleGoogle Scholar
Total: 695 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 645 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf