Writing Science

Logistische Regression

Logistische Regressionen als Vorhersagemodelle

Wie wir gesehen haben, dienen lineare Regressionen dazu, um Kausalbeziehungen zwischen einer intervallskalierten abhängigen Variable und einem oder mehreren Prädiktorvariablen abzubilden. Demgegenüber ist das Ziel der logistischen Regression – vereinfacht ausgedrückt – umgekehrt: StudentInnen und Ghostwriter für Statistik wollen mit den logistischen Regressionsmodellen Vorhersagen generieren. Der grundlegende Unterschied zur linearen Regression besteht darin, dass bei den logistischen Modellen die abhängige Variable nicht mehr intervallskaliert ist, sondern (im einfachsten Fall) binär; sie kann also nur zwei Ausprägungen annehmen. Auch solche Modelle lassen sich in SPSS, Stata und RStudio berechnen. Diese werden beispielsweise dann gebraucht, wenn in einer medizinischen Dissertation untersucht werden soll, ob ein hoher oder niedriger Blutdruck (intervallskaliert) den Ausbruch einer Krankheit (ja/nein) vorhersagen kann. In der Psychologie könnte im Rahmen der Doktorarbeit möglicherweise mit einer logistischen Regression untersucht werden, ob die starke oder schwache Ausprägung eines Charakterzugs (intervallskaliert) mit der Straffälligkeit der Probanden (ja/nein) zusammenhängt.

Oft gibt es bei statistischen Berechnungen keine linearen Zusammenhänge

Eine der wichtigsten Voraussetzungen der linearen Regression war die lineare Beziehung zwischen der abhängigen und der oder den unabhängigen Variablen. In der Realität zeigt sich jedoch schnell, dass dies eine stark vereinfachende Annahme ist, die sich in der statistischen Datenanalyse nur selten als zutreffend erweist. In vielen Fällen ist überhaupt nicht bekannt, ob sich die Beziehung zwischen den abhängigen und unabhängigen Variablen überhaupt sinnvoll durch ein Regressionsmodell beschreiben lässt. Hier bieten logistische Regressionsmodelle eine Möglichkeit, Beziehungen außerhalb von linearen Abhängigkeiten zu modellieren. In der Praxis kommen StudentInnen und Ghostwriter für Statistik jedoch erst ab der Masterarbeit oder der Dissertation mit logistischen Regressionsanalysen in Berührung.

Logistische Regressionen – an der Natur orientiert

Mithilfe logistischer Regressionsanalysen lassen sich komplexe Vorgänge modellieren, die oftmals an der Natur orientiert sind. Als Beispiel sind hier Sättigungs- oder Wachstumsvorgänge zu nennen. Beispielsweise kann im Rahmen der Statistik angenommen werden, dass eine kleine Pflanze zunächst nur langsam wächst, da sie noch nicht über große Stoffwechselkapazitäten verfügt. Dann folgt eine Phase des schnellen Wachstums, bis die Pflanze sich ihrer typischen Maximalgröße annähert (beispielsweise durch den Jahreszeitenwechsel). Je weiter sich die Pflanze ihrer Maximalgröße annähert, desto stärker verlangsamt sich das Wachstum. Wird nun das Wachstum gegen die Zeit abgetragen, ergibt sich ein S-förmiger Kurvenverlauf. Hier könnte eine logistische Regressionsanalyse dazu dienen, auf Basis von Stoffwechselparametern vorherzusagen, ob sich die Pflanze in der langsamen jungen oder älteren Wachstumsphase oder in der Phase schnellen Wachstums befindet.

Logistische Regression als komplexe Modellierungsvorgänge

Gerade weil es sich bei logistischen Regressionsverfahren um hochkomplexe Modellierungsvorgänge handelt, begegnen StudentInnen diesen im regulären Studium an der Hochschule oder Universität fast nie. Wenn überhaupt, dann werden solche Berechnungen erst mit höheren Abschlüssen wie der Master- oder Doktorarbeit relevant. Dies hat einen relativ einfachen Grund: Zwar können mit einfachen mathematischen Verfahren wie Varianzanalysen oder Mittelwertvergleichen relativ schnell und effizient Unterschiede und einfache Zusammenhänge untersucht werden, aber wenn sich die Mathematik der Komplexität realer Ursache-Wirkungs-Beziehungen anzunähern versucht, nimmt der Rechenaufwand exponentiell zu. Das gilt ebenso für StudentInnen und Ghostwriter für Statistik und die Rechenkapazitäten, die SPSS, Stata und RStudio benötigen.