Algorithmen für Text Mining
12.08.2019, 00:00 Uhr
Besser verstehen
Mit Methoden der String-Verarbeitung Kennzahlen und Basisdaten für die Textanalyse ermitteln.
Diese kleine Artikelserie hat sich in der Ausgabe 8/2019 der dotnetpro mit der Bedeutung, Anwendung und den Hintergründen des Text Mining auseinandergesetzt [1]. Text Mining – so sagt es bereits der Name – ist eine besondere Spielart des Data Mining und beschäftigt sich mit der Analyse von Daten, die in Form von Texten vorliegen. Im Sinne der informationstechnischen Verarbeitung handelt es sich also um Zeichenketten. Texte sind in der Regel unstrukturierte Daten, das heißt, dass man versuchen muss, mit bestimmten Algorithmen und Techniken an die „verborgenen“ Informationen heranzukommen. Das ist kein leichtes Unterfangen, denn ein Text ist so gestaltet, dass er sich an den Belangen der menschlichen Kommunikation ausrichtet. Er ist mit Füllwörtern, unterschiedlichen Satzzeichen, verschiedenen Begriffen für die gleichen Sachverhalte und so weiter angereichert.
Sie können es sich schon denken: Die dazu notwendigen Algorithmen für die Analyse sind wahrscheinlich nicht gerade trivial. Sie erfordern umfassende Kenntnisse in der Linguistik. Mit der Verfügbarkeit von Diensten über die Cloud besteht nun die Möglichkeit, dass auch der „normale“ Entwickler in den eigenen Applikationen auf diese Algorithmen zurückgreifen kann. Das öffnet den Zugang zu modernen, teilweise auf KI basierenden Ansätzen zur Textanalyse.
Jetzt 1 Monat kostenlos testen!
Sie wollen zukünftig auch von den Vorteilen eines plus-Abos profitieren? Werden Sie jetzt dotnetpro-plus-Kunde.
- + Digitales Kundenkonto,
- + Zugriff auf das digitale Heft,
- + Zugang zum digitalen Heftarchiv,
- + Auf Wunsch: Weekly Newsletter,
- + Sämtliche Codebeispiele im digitalen Heftarchiv verfügbar