Writing Science

Text Mining und NLP

Text-Mining und NLP in der Wissenschaft

Auch wenn derartige Projekt aktuell noch selten sind, so ist doch feststellbar, dass die Analyse und Aufbereitung großer Textkorpora mithilfe von informatischen und statistischen Methoden in der Wissenschaft an Bedeutung gewinnen. Dementsprechend kommen auch StudentInnen und Ghostwriter, die statistische Auswertungen erstellen, immer häufiger mit Text-Mining-Projekten und Natural Language Processing (NLP) in Kontakt. Ein Grund hierfür liegt beispielsweise in der immer weiter wachsenden Bedeutung sozialer Netzwerke für die Kommunikation, was gerade für die Sozialwissenschaften interessant ist. Text-Mining- und NLP-Techniken können Doktoranden beispielsweise dabei helfen, in großen Textmengen innerhalb kurzer Zeit die Wortfrequenzen zu bestimmen, eine Wortfrequenzmatrix nach Korrelationen zu clustern, Themenverwandtschaften aufzudecken oder statistische Kennzahlen eines Korpus grafisch darzustellen.

R und RStudio als Lösungen für Text-Mining und NLP

Für Text-Mining- und NLP-Analysen sind R und RStudio SPSS und Stata hinsichtlich des Nutzungspotenzials weit überlegen, denn aufgrund einer Vielzahl verschiedener Packages für die Textmanipulation – Kennzeichnen von Tokens, Stemming sowie Darstellung von Korrelationsmatrizen, n-Grammen oder Wordclouds – gibt es in R und RStudio bereits etablierte Lösungen. Auch semantische Netzwerke aus mehreren Dokumenten oder die sogenannte Sentiment-Analyse (Emotionsanalyse) stehen in R als fundierte Lösungen zur Verfügung. Je nach Fragestellung der Doktorarbeit können beispielsweise funktionale Netzwerke verschiedener Gene genauso einfach dargestellt werden, wie wiederkehrende Themenblöcke in Internetchats. Die folgende Abbildung zeigt beispielsweise, dass sich mithilfe von Text-Mining- und NLP-Analysen anhand von Publikationstexten funktionale Gennetzwerke in Hefen (S. cerevisiae) identifizieren lassen.

Semantisches Netzwerk aus verschiedenen Publikationen zur Regulation des Hefegenoms

Text-Mining als wissenschaftliche Methode

Aufgrund der immer weiter und schneller anwachsenden Textmengen in sozialen Netzwerken, und Wissenschaftsdatenbanken sowie der Kommunikation im Allgemeinen müssen wissenschaftliche Techniken entwickelt werden, die eine Analyse dieser Korpora in einer akzeptablen Zeit ermöglichen. Text-Mining und NLP mithilfe von R und RStudio kann genau dies für StudentInnen und Ghostwriter leisten: Korrelative, semantische und emotionale Textanalysen, die mithilfe der Statistik wissenschaftlich fundiert sind, werden so in kurzer Zeit möglich. Wenn auch Sie für Ihr akademisches Projekt Text-Mining- und NLP-Analysen benötigen, entwickelt Writing Science dazu mit Ihnen gerne einen individuellen Ansatz, der genau auf Ihre Fragestellung und Ihren Textkorpus zugeschnitten ist. Von der Aufbereitung des Materials über die Durchführung der Analysen bis zur schriftlichen Darstellung der Ergebnisse ist dabei alles möglich.