MOOC-Rückblick: The Analytics Edge

Neben der Astrophysik habe ich mich in den letzten Wochen auch mal wieder mit der quantitativen Datenanalyse auseinandergesetzt. In meiner eigenen wissenschaftlichen Arbeit habe ich bislang in erster Linie qualitativ gearbeitet, schätze aber das Potenzial, das sich in den quantitativen Methoden findet. The Analytics Edge, angeboten von MITx auf der Plattform edX war dabei nicht mein erster Kurs in diesem Bereich, aber sicherlich der umfangreichste.

Inhalt und Thema

In der quantitativen Datenanalyse geht es darum, aus Daten – zumeist Zahlen – Informationen über einen bestimmten Sachverhalt zu gewinnen. Solche Analyseverfahren haben in den letzten Jahren massiv an Bedeutung gewonnen: Durch die immer stärke Digitalisierung und Vernetzung in allen Lebensbereichen, stehen mittlerweile gigantische Datensätze zur Verfügung, die bereits jetzt umfangreich eingesetzt werden. Offensichtliche Beispiele sind Empfehlungsalgorithmen, wie man sie beispielsweise bei Netflix oder Amazon findet, oder statistische Prognosen wie das mittlerweile eingestellte Google Flu Trends.

In insgesamt neun Einheiten jagt das Team  um Professor Dimitris Bertsimas durch ein breites Spektrum an Methoden der quantitativen Datenanalyse. Angefangen mit den Klassikern lineare und logistische Regression, ging es dann weiter mit Regressionsbäumen, Textanalyse und Clustering – alles auf der Grundlage des Statistik-Systems R. Auf eine kurze Atempause mit Datenvisualisierung folgte dann noch lineare Optimierung mit klassischen Tabellenkalkulationsprogrammen. Dabei lag der Schwerpunkt auf der Anwendung der Methoden und der Interpretation der Ergebnisse. Die statistisch-mathematischen Grundlagen werden höchstens angedeutet und auch die inhaltlichen Fragen – auch wenn sie realen Daten entstammen – waren nebensächlich.

Präsentation und Aufarbeitung

Jede Einheit des Kurses bestand aus zwei Vorlesungen, in denen jeweils an einem anderen (realen) Beispiel die zentralen Konzepte und Befehle der entsprechenden Methoden vorgestellt wurden. Das Tempo war dabei durchaus zügig, schien mir aber genau richtig. Meist standen am Anfang ein oder zwei Folien, auf denen das Problem vorgestellt wurde, dann folgte eine abstrakte Vorstellung der Methode, bevor die konkrete Anwendung in R oder der Tabellenkalkulation vorgestellt wurde. Zwischendrin gab es immer wieder kurze Kontrollfragen, die manchmal auch direkt am aktuellen Datensatz gelöst werden mussten. Ein drittes Beispiel diente dann als Recitation, um das Gelernte nochmal anzuwenden und zu festigen.

Die wöchentlichen Hausaufgaben waren extrem umfangreich und bestanden aus drei weiteren Datensätzen, die entsprechend der vorgestellten Methoden aufgearbeitet und untersucht werden sollten. Die Fragestellungen waren dabei meist äußerst präzise und umfangreich formuliert und führten teilweise sogar noch neue Befehle ein.

Angereichert wurde der Kurs durch eine internen Wettbewerb auf der Plattform Kaggle – den ich urlaubsbedingt leider verpasst habe – und eine Abschlussklausur, in der erneut drei Beispiele für einen Rundumschlag durch die vorgestellten Methoden herhalten mussten.

Reflexion

Insgesamt fand ich The Analytics Edge eine sehr angenehme MOOC-Erfahrung, auch wenn der Umfang der Kontrollaufgaben mir doch manchmal etwas übel aufgestoßen ist. Das Lehrmaterial war durchaus verständlich aufgearbeitet, aber ich vermute, es wäre mir etwas zu knapp gewesen, wenn ich nicht vielen der Methoden schon an anderer Stelle über den Weg gelaufen wäre. Doch gerade im Bereich der Klassifikation durch Regressionsbäume und der linearen Optimierung habe ich noch eine Menge lernen können.

Neben den methodischen Kenntnissen bietet dieser Kurs aber auch einen wunderbaren Einblick in das Selbstverständnis zahlreicher Datenanalysten: Es ging in erster Linie darum, die Befehle richtig zu verwenden und die ausgegebenen Resultate zu interpretieren. Die inhaltliche Dimension der Analyse blieb dabei vollkommen außen vor. Die entsprechenden Beispieldaten wurden in eine oder zwei Minuten eingeführt und nicht reflektiert. Auch die Fragen danach, welche Fragen die entsprechenden Methoden eigentlich beantworten können und ob statistische Zusammenhänge etwas über Kausalität aussagen können, wurden nicht angesprochen. Dasselbe gilt für die mathematisch-statistischen Grundlagen und die Anforderungen an die Daten.

So bleibt das etwas hohle Gefühl, zwar viele Methoden angewendet zu haben und zu wissen, dass sie existieren, aber nicht wirklich etwas gelernt und verstanden zu haben. Das ist bei der Stoffmenge wahrscheinlich auch zu viel verlangt, aber dann wäre hier weniger mehr gewesen.

Nils Müller
bringt nicht nur anderen Schreiben bei, sondern schreibt auch selbst leidenschaftlich gerne. Als Soziologe interessiert er sich für die Gesellschaft genauso wie für Wissenschaft und die Frage nach dem guten Leben. Er lebt und liest in Dortmund, Bielefeld und auf dem Weg im ICE. Mehr zu ihm gibt es unter nilsmueller.info

2 Kommentare

  1. Der von dir vermisste Teil lässt sich didaktisch viel besser anhand von einfachen Beispielen aus der Grundlagenstatistik behandeln. Technisches Handwerk und Wissenschaftsphilosophie im selben Kurs unterzubringen, fände ich Quatsch.

    • Nils Müller sagt:

      Du hast schon recht, dass man nicht alle Themen in der notwendigen Tiefe in einem Kurs behandeln kann. Was mir allerdings in dem Kurs fehlt, ist ein grundlegender Hinweis darauf, das hinter den ganzen Methoden komplexe Berechnungen und wissenschaftstheoretische Fragestellungen stehen und alle quantitativen Ergebnisse maximal Hinweise auf Zusammenhänge bieten. So wird zum Beispiel selbst die inhaltliche Plausibilität der Beispielergebnisse nicht thematisiert.

      Der Glaube an Kennzahlen und „Daten“ ist schon stark genug und ohne die entsprechenden Grundlagen bleibt es Quacksalberei…

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.