Data Science: “Everything is obvious once you know the answer”

In den letzten Jahren bin ich in meinem Job in die Rolle der Schnittstellen-Tante gerutscht. Offenbar kann ich ganz gut mit Schnittstellen, und wenn immer eine eingeführt oder überarbeitet wird, bin ich als Projektmanagerin im Boot. Also gefühlt zumindest. Das ist cool und macht Spaß. Meistens. Und in den extrem kurzen Zeiträumen, in denen es mal nicht so viel Spaß macht, tröste ich mich mit der Hoffnung, dass diese Expertise eine optimale Vorbereitung für mein erstes Datenjournalismus-Projekt ist. Irgendwann werde ich eins betreuen!

Gut, dass mir auf der Republica 2013 @yetzt, @michaelkreil und @johl (in “Datenbefreiung selbstgemacht”) sowie @jbenno und @furukama (in “Street Fighting Data Science”) schon ein paar Tipps gegeben haben:

Know-how

Benötigt werden zum Datenjournalismus: “hacking skills, math + statistics, substantive expertise”. Aber Vorsicht, wenn man nur 2 von 3 der genannten Fähigkeiten hat, gerät man leicht in die “danger zone”.

Ablauf

Notwendige Schritte sind:
1. Crawling/Scraping (auf Lizenzen achten!)
2. Db, Hadoop, Stream Processing
3. Data Munging: Bereinigen, Formatieren, Konvertieren
4. Machine Learning (Python, Scikit-Learn/NumPy, SciPy, R, Mahout)
5. Textanalyse (NLTK, R)
6. Network Analyse (Gephi, NodeXL)

Data Science ist nicht repräsentativ

Als Data Scientist geht es außerdem um: Umnutzen vorhandener Daten, Umwidmen von Methoden, Agile Adhoc Analysen und Improvisation. Damit kann man dann als Street-Fighting-Daten-Journalist (nicht wirklich wissenschaftlich, aber zutreffend und schön) pragmatisch Vorhersagen treffen.

Handwerkszeug

* Und dann die Tools natürlich:
** Google N-Gramme: Häufigkeit von Worten
** WordNet: Bedeutung der Worte
** FilogGL: z.B. zum Karten aus Flickr-Fotos generieren
** Google Correlate: Um den Suchbegriff zur Datenreihe zu finden oder die Arbeitslosen-Zahlen vorherzusagen
** NodeXL: z.B. für Twitt-Auswertung in Excel
** Gephi + Facebook-Plugin
** wikidate/w/api.php
** thewebminer.com zum Scrapen (hatte ich die Lizenzen erwähnt?!)
** Und überhaupt: Excel!!! (Damit kann man sogar SVGs erstellen, um daraus Grafiken in Vektorprogrammen zu erzeugen!)

So what?

Ich freu mich auf die Gelegenheit, das alles mal anzuwenden. Zeit müsste man haben… *seufz* Jaja, ich weiß: “Einfach machen!”

Video zur Session

Datenbefreiung selbstgemacht