Programmierbeispiel 05.03.2018, 17:43 Uhr

Spam erkennen mit Machine Learning

Wie schreibt man ein Machine-Learning-Programm und setzt es erfolgreich ein? Peter Leow präsentiert dazu eine Software-Studie zur Spam-Erkennung.
Machine Learning gehört zu den Themengebieten, in die man sich als Entwickler zumindest rudimentär einarbeiten sollte. Eine gute Möglichkeit dazu bietet der CodeProject-Beitrag von Peter Leow "You've Got Spam". Am alltäglichen Beispiel zum Erkennen von Spam – also unliebsamer oder gar schädlicher E-Mails – entwickelt er eine Machine-Learning-Software mit Python, die anhand von je 1000 E-Mail-Datensätzen darauf trainiert wird, Spam von Ham (Ham sind hier die erwünschten E-Mails) zu trennen. Das geschieht über eine genaue Analyse der in den jeweiligen E-Mails enthaltenen Wörtern. Als Ergebnis kann der Spam-Filter eine Wahrscheinlichkeit benennen, die angiebt ob die Nachricht eher Spam oder eher Ham ist.Anhand des einzugebenden Schwellenwertes kann das Programm eine E-Mail dann der einen oderanderen Kategorie zuweisen.
Alle für das Nachvollziehen des Beispiels erforderlichen Dateien stehen zum Download bereit – neben den Quelltexten auch die Knowledge-Base sowie Test-Datensätze. Leows Beitrag ist in englischer Sprache und er spart auch die zugrundeliegende Mathematik nicht aus.


Das könnte Sie auch interessieren