A Machine Learning-enhanced web-crawler for vulnerability detection: A binary classification approach
2025 (English)Independent thesis Advanced level (professional degree), 20 credits / 30 HE credits
Student thesis
Abstract [en]
Background. The increasing use of web-applications and the Internet underscores the growing importance of application security, as many applications are more vulnerable than anticipated. Penetration testers often employ web-crawling due to its simplicity. However, traditional crawlers struggle with depth, effectiveness, and produce numerous false-positives and negatives. Research on machine learning-induced web crawlers is limited in terms of its ability to enhance the detection of vulnerabilities.
Objectives. Machine learning-powered focused crawlers offer significant potential to identify relevant web-pages in response to search queries and efficiently indexing the web. This thesis examines the effectiveness of Random forest, XGBoost, and LSTM-CNN in identifying web-pages that are susceptible to attacks.
Methods. In this study, an experimental approach is used to assess the performance differences between a machine learning, ML, integrated web crawler and a conventional one. The performance is assessed by looking at the harvest rate, decreasing the total number of pages saved, and increasing the number of vulnerable pages saved.
Results. XGBoost achieved the highest F1-score and recall, while LSTM-CNN scored the lowest among the models evaluated. However, the experiment indicated that many vulnerable pages were overlooked.
Conclusions. The top-performing model shows potential, but is not strong enough to be used in production. Currently, ML cannot reliably distinguish vulnerable pages solely through HTML-analysis.
Abstract [sv]
Bakgrund. Den ökande användningen av webbapplikationer och Internet understryker den växande betydelsen av applikationssäkerhet eftersom många av dagens applikationer är mer sårbara än förväntat. Penetrationstestare använder ofta webb-crawling på grund av dess enkelhet. Men traditionella crawlers har dock problem, med både djup och effektivitet samtidigt som de producerar många falska positiva och falska negativa resultat. Forskningen om webbcrawlers som bygger på maskininlärning är begränsad när det gäller deras förmåga att förbättra upptäckten av sårbarheter i webbapplikationer.
Syfte. Maskininlärningsdrivna fokuserade sökrobotar erbjuder betydande potential när det gäller att identifiera relevanta webbsidor utifrån sökfrågor, och är effektiva på att indexera webben. Denna avhandling undersöker effektiviteten hos Random forest, XGBoost och LSTM-CNN för att identifiera webbsidor som är mottagliga för attacker.
Metod. I den här studien används ett experimentellt tillvägagångssätt för att bedöma prestandaskillnaderna mellan en maskininlärningsintegrerad webbsökare och en konventionell. Prestandan bedöms genom att undersöka \textit{harvest-rate}, den totala mängden undansparade sidor, samt mängden sparade sårbara sidor.
Resultat. XGBoost uppnådde högst F1-score och recall, medan LSTM-CNN fick lägst poäng av de utvärderade modellerna. Experimentet visade även att många sårbara sidor förbisågs.
Slutsatser. XGBoost med bäst resultat visar potential, men är inte tillräckligt bra för att användas i produktions-sammanhang. Med de undersökta metoderna som grund, förefaller maskininlärning ännu inte kunna urskilja sårbara sidor på ett tillförlitligt sätt, enbart baserat på HTML-analys.
Place, publisher, year, edition, pages
2025. , p. 69
Keywords [en]
machine learning, deep learning, web-crawling, cybersecurity
Keywords [sv]
cybersäkerhet, web-crawling, maskininlärning, djupinlärning
National Category
Other Engineering and Technologies
Identifiers
URN: urn:nbn:se:bth-27963OAI: oai:DiVA.org:bth-27963DiVA, id: diva2:1962633
External cooperation
Outpost24
Subject / course
Degree Project in Master of Science in Engineering 30,0 hp
Educational program
DVAMI Master of Science in Engineering: AI and Machine Learning 300 hp
Supervisors
Examiners
2025-06-112025-06-012025-09-30Bibliographically approved