Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Comparing machine learning algorithms for detecting behavioural anomalies
Blekinge Institute of Technology, Faculty of Computing, Department of Computer Science.
2023 (English)Independent thesis Advanced level (professional degree), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

Background. Attempted intrusions at companies, either from an insider threat orotherwise, is increasing in frequency. Most commonly used is static analysis and filters to stop specific attacks. Utilising machine learning in order to detect behaviouralanomalies in the access flow of an isolated system can aid in detecting, and stopping, attacks faster than previous methods.

Objectives. In this thesis, four algorithms were selected to be compared againsteach other using three different metrics. These metrics were chosen for their importance in an isolated domain. All algorithms will be trained on the same dataset, from which anomalies are created that are used to test each model.

Methods. A dataset created for anomaly detection is preprocessed to fit the scenario that was explored. After which the dataset was split per user and only the user with the most samples was used for training the models. In order to test and evaluate the models, anomalies were forged from a profile created out of the metadata belonging to the chosen user. These anomalies, alongside a part of the benign samples were used to evaluate the F1 score of each model, which was compared. The better performing model according to the F1 score was then subjected to hyperparameter tuning to improve the performance further. Afterwards, the speed of which the model was loaded, and a single sample was predicted and the memory consumption of each action was measured.

Results. The results showed that two algorithms were relatively close, all depending on the strictness of memory consumption. Local Outlier Factor, which used four times the memory (44 MB) of the other models, proved to be the better option when looking at F1 score, at 90.91% after having undergone hyperparameter tuning. However, Elliptic Envelope was a close second at 86.61% without undergoing hyperparameter tuning, while consuming less memory (11 MB) than the others. The speed of loading the models were 26.68 ms and 2.01 ms, with predicting one sample 1.87 ms and 0.38 ms respectively for the two models. The initial loading time is less important since it is only done once.

Conclusions. Using this dataset, which albeit is not optimal, it showed that Local Outlier Factor was the best performing model, at a slightly higher memory con-sumption, while remaining accurate and relatively fast. However, it was also shown that depending on how strict the memory consumption is, Elliptic Envelope can be applicable as well considering its lower memory consumption.

Abstract [sv]

Bakgrund. Försök till intrång i företag, antingen från insiderhot eller på annat håll ökar i frekvens. Vanligtvis används statisk analys, eller olika filter för att motverka dessa attacker. Genom att använda maskininlärning för att upptäcka beteendeavikelser i ett loggflöde inuti ett isolerat system kan hjälpa till att upptäcka, och stoppa, attacker snabbare än tidigare metoder.

Syfte. I det här arbetet har fyra algoritmer valts att jämföras med varandra genom att titta på tre olika mätvärden. Dessa mätvärden har valts på grund av dess betydelse i system placerade i en isolerad domän. Alla algoritmer tränades på samma dataset, och testas på avvikelser som har skapats från att tillverka en profil utifrån datasetet.

Metod. Ett dataset som skapades för att upptäcka avvikelser i en åtkomstlogg har behandlats så att den ska passa scenariot som ska utforskas. Sedan så delades datasetet upp per användare, och enbart den användare med flest loggar har använts för att träna modellerna.För att testa modellerna, så har en profil byggts upp ifrån metadatan för att sedan generera anomala tillfällen för den valda användaren. Dessa avvikelser, tillsammans med en del utav de normala fallen har använts för att beräkna modellernas F1 värde. Sedan har tiden som krävts för att ladda modellen till minne från disk, tiden det tog för en gissning utav modellen, samt det datorminne som krävs för detta sparats. Dessa tre mätvärden har sedan satts emot varandra i jämförelsen. Den modell som presterade bäst i F1 värde genomgick hyperparameterjustering för att förbättra detta värde.

Resultat. Resultatet visade att två algoritmer är någorlunda nära i hur de presterade. Skillnaden är att ena algoritmen, Local Outlier Factor, har ett lite högre F1 värde på 90.91% efter hyperparameterjustering, men kräver fyra gånger så mycket minne (44 MB). Dess tid att ladda ifrån disk var 26.68 ms, medans en gissning utav den tog 1.87 ms. Till skillnad från Elliptic Envelope som enbart krävde 11 MB för att ladda till minne, med ett F1 värde på 86.61% utan hyperparameterjustering. Det tog även bara 2.01 ms och 0.38 ms för att ladda modellen, respektive att gissa en kategori.

Slutsatser. Med detta dataset, som inte är det mest optimala, så visade det sig att Local Outlier Factor var den modell som presterade bäst, relativt snabb med dess gissningar och bra träffsäkerhet med ett högt F1 värde. Däremot, så visade det sig att beroende på hur strikt kravet på låg minnesanvändning är, så kan även Elliptic Envelope vara lämplig. Då den kräver fyra gånger så lite minne som Local Outlier Factor.

Place, publisher, year, edition, pages
2023. , p. 54
Keywords [en]
Anomaly Detection, Machine Learning, Behavioural Anomalies
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:bth-24728OAI: oai:DiVA.org:bth-24728DiVA, id: diva2:1762650
Subject / course
Degree Project in Master of Science in Engineering 30,0 hp
Educational program
DVADS Master of Science in Engineering: Computer Security
Supervisors
Examiners
Available from: 2023-06-21 Created: 2023-06-04 Last updated: 2023-06-21Bibliographically approved

Open Access in DiVA

fulltext(1219 kB)293 downloads
File information
File name FULLTEXT01.pdfFile size 1219 kBChecksum SHA-512
aab91c562e464473721b7920220e3781d935df5944bd06e32bb7ce67a851baa23216f1196beea5d9793299040daa1ee80ef8e3e38db35f58404d3f1bfa243a28
Type fulltextMimetype application/pdf

By organisation
Department of Computer Science
Computer Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 293 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 316 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf