The classification of protein sequences is a subfield in the area of Bioinformatics that attracts a substantial interest today. Machine Learning algorithms are here believed to be able to improve the performance of the classification phase. This thesis considers the application of different Machine Learning algorithms to the classification problem of a data set of short-chain dehydrogenases/reductases (SDR) proteins. The classification concerns both the division of the proteins into the two main families, Classic and Extended, and into their different subfamilies. The results of the different algorithms are compared to select the most appropriate algorithm for this particular classification problem.
Klassificeringen av proteinsekvenser är ett område inom Bioinformatik, vilket idag drar till sig ett stort intresse. Maskininlärningsalgoritmer anses här kunna förbättra utförandet av klassificeringsfasen. Denna uppsats rör tillämpandet av olika maskininlärningsalgoritmer för klassificering av ett dataset med short-chain dehydrogenases/reductases (SDR) proteiner. Klassificeringen rör både indelningen av proteinerna i två huvudklasser, Classic och Extended, och deras olika subklasser. Resultaten av de olika algoritmerna jämförs för att välja ut den mest lämpliga algoritmen för detta specifika klassificeringsproblem.