Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Similarity assessment for removal of noisy end user license agreements
Blekinge Tekniska Högskola, Sektionen för datavetenskap och kommunikation.
Blekinge Tekniska Högskola, Sektionen för datavetenskap och kommunikation.
Ansvarig organisation
2012 (Engelska)Ingår i: Knowledge and Information Systems, ISSN 0219-1377, Vol. 32, nr 1, s. 167-189Artikel i tidskrift (Refereegranskat) Published
Abstract [en]

In previous work, we have shown the possibility to automatically discriminate between legitimate software and spyware-associated software by performing supervised learning of end user license agreements (EULAs). However, the amount of false positives (spyware classified as legitimate software) was too large for practical use. In this study, the false positives problem is addressed by removing noisy EULAs, which are identified by performing similarity analysis of the previously studied EULAs. Two candidate similarity analysis methods for this purpose are experimentally compared: cosine similarity assessment in conjunction with latent semantic analysis (LSA) and normalized compression distance (NCD). The results show that the number of false positives can be reduced significantly by removing noise identified by either method. However, the experimental results also indicate subtle performance differences between LSA and NCD. To improve the performance even further and to decrease the large number of attributes, the categorical proportional difference (CPD) feature selection algorithm was applied. CPD managed to greatly reduce the number of attributes while at the same time increase classification performance on the original data set, as well as on the LSA- and NCD-based data sets.

Ort, förlag, år, upplaga, sidor
Springer , 2012. Vol. 32, nr 1, s. 167-189
Nyckelord [en]
End user license agreement, Latent semantic analysis, Normalized compression distance, Spyware
Nationell ämneskategori
Datavetenskap (datalogi)
Identifikatorer
URN: urn:nbn:se:bth-7176DOI: 10.1007/s10115-011-0438-9ISI: 000305692000007Lokalt ID: oai:bth.se:forskinfoFBDEF2128A7A7A8AC12578DE000AEEB5OAI: oai:DiVA.org:bth-7176DiVA, id: diva2:834758
Tillgänglig från: 2012-11-27 Skapad: 2011-07-31 Senast uppdaterad: 2025-09-30Bibliografiskt granskad

Open Access i DiVA

fulltext(188 kB)586 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 188 kBChecksumma SHA-512
3a38e40331d4d87640a4786446dcb9fe779dd1c4e80c5558370d65aaa003a5a760e258ca203ddc2d5a4dd23b713bb40c96fddb72a4aa737e03ffd57bc1f7c162
Typ fulltextMimetyp application/pdf

Övriga länkar

Förlagets fulltext

Person

Lavesson, NiklasAxelsson, Stefan

Sök vidare i DiVA

Av författaren/redaktören
Lavesson, NiklasAxelsson, Stefan
Av organisationen
Sektionen för datavetenskap och kommunikation
Datavetenskap (datalogi)

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 586 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

doi
urn-nbn

Altmetricpoäng

doi
urn-nbn
Totalt: 379 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf