Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
A Machine Learning-enhanced web-crawler for vulnerability detection: A binary classification approach
Blekinge Institute of Technology, Faculty of Computing.
2025 (English)Independent thesis Advanced level (professional degree), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

Background. The increasing use of web-applications and the Internet underscores the growing importance of application security, as many applications are more vulnerable than anticipated. Penetration testers often employ web-crawling due to its simplicity. However, traditional crawlers struggle with depth, effectiveness, and produce numerous false-positives and negatives. Research on machine learning-induced web crawlers is limited in terms of its ability to enhance the detection of vulnerabilities.

Objectives. Machine learning-powered focused crawlers offer significant potential to identify relevant web-pages in response to search queries and efficiently indexing the web. This thesis examines the effectiveness of Random forest, XGBoost, and LSTM-CNN in identifying web-pages that are susceptible to attacks.

Methods. In this study, an experimental approach is used to assess the performance differences between a machine learning, ML, integrated web crawler and a conventional one. The performance is assessed by looking at the harvest rate, decreasing the total number of pages saved, and increasing the number of vulnerable pages saved. 

Results. XGBoost achieved the highest F1-score and recall, while LSTM-CNN scored the lowest among the models evaluated. However, the experiment indicated that many vulnerable pages were overlooked.

Conclusions. The top-performing model shows potential, but is not strong enough to be used in production. Currently, ML cannot reliably distinguish vulnerable pages solely through HTML-analysis.

Abstract [sv]

Bakgrund. Den ökande användningen av webbapplikationer och Internet understryker den växande betydelsen av applikationssäkerhet eftersom många av dagens applikationer är mer sårbara än förväntat. Penetrationstestare använder ofta webb-crawling på grund av dess enkelhet. Men traditionella crawlers har dock problem, med både djup och effektivitet samtidigt som de producerar många falska positiva och falska negativa resultat. Forskningen om webbcrawlers som bygger på maskininlärning är begränsad när det gäller deras förmåga att förbättra upptäckten av sårbarheter i webbapplikationer. 

Syfte. Maskininlärningsdrivna fokuserade sökrobotar erbjuder betydande potential när det gäller att identifiera relevanta webbsidor utifrån sökfrågor, och är effektiva på att indexera webben. Denna avhandling undersöker effektiviteten hos Random forest, XGBoost och LSTM-CNN för att identifiera webbsidor som är mottagliga för attacker. 

Metod. I den här studien används ett experimentellt tillvägagångssätt för att bedöma prestandaskillnaderna mellan en maskininlärningsintegrerad webbsökare och en konventionell. Prestandan bedöms genom att undersöka \textit{harvest-rate}, den totala mängden undansparade sidor, samt mängden sparade sårbara sidor.

Resultat. XGBoost uppnådde högst F1-score och recall, medan LSTM-CNN fick lägst poäng av de utvärderade modellerna. Experimentet visade även att många sårbara sidor förbisågs. 

Slutsatser. XGBoost med bäst resultat visar potential, men är inte tillräckligt bra för att användas i produktions-sammanhang. Med de undersökta metoderna som grund, förefaller maskininlärning ännu inte kunna urskilja sårbara sidor på ett tillförlitligt sätt, enbart baserat på HTML-analys.

Place, publisher, year, edition, pages
2025. , p. 69
Keywords [en]
machine learning, deep learning, web-crawling, cybersecurity
Keywords [sv]
cybersäkerhet, web-crawling, maskininlärning, djupinlärning
National Category
Other Engineering and Technologies
Identifiers
URN: urn:nbn:se:bth-27963OAI: oai:DiVA.org:bth-27963DiVA, id: diva2:1962633
External cooperation
Outpost24
Subject / course
Degree Project in Master of Science in Engineering 30,0 hp
Educational program
DVAMI Master of Science in Engineering: AI and Machine Learning 300 hp
Supervisors
Examiners
Available from: 2025-06-11 Created: 2025-06-01 Last updated: 2025-09-30Bibliographically approved

Open Access in DiVA

fulltext(1818 kB)300 downloads
File information
File name FULLTEXT01.pdfFile size 1818 kBChecksum SHA-512
c7190f06e0bb178837308c8bc91cf928c69e005b98e84ee0d13d27390d2499fb02085dc157ae8a7a73c9e4c2c1b53bda49f78a370a400f76fd1256457a7c0fec
Type fulltextMimetype application/pdf

By organisation
Faculty of Computing
Other Engineering and Technologies

Search outside of DiVA

GoogleGoogle Scholar
Total: 300 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 375 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf