#DataDeepDive – dpa Hackathon mit Schickler Data Science Team

Unter dem Motto #DataDeepDive fand vom 29. November bis 1. Dezember bereits zum dritten Mal der dpa Hackathon im Newsroom der deutschen Presseagentur (dpa) in Berlin statt. Ziel war es, datengetriebene Lösungen zu entwickeln, um die Arbeit der Journalisten im dpa-Newsroom zu erleichtern und neue datenbasierte Produkte oder Produktverbesserungen für die Nachrichtenagentur zu kreieren. Die behandelten Themen umfassten unter anderem die automatisierte Erstellung von journalistischen Inhalten in Text und Graphiken (Robot Journalism), die Auswertung und Erkenntnisgewinnung aus öffentlichen Datenquellen (Public Data) und die Verwendung von Nutzerdaten zur optimalen Ausspielung von Inhalten (DataDriven-Publishing).

Das Format des Hackathons und die bunte Mischung von circa 80 Teilnehmen aus den Bereichen Software-Entwicklung, Journalismus und Data Science boten optimale Voraussetzungen für die Entwicklung innovativer Ideen. Zudem bekamen die Teilnehmer von den dpa-Mitarbeitern im Newsroom direkte Einschätzungen zur Umsetzbarkeit und zum Nutzen ihrer Konzepte.
Nur 50 Stunden hatten die Teilnehmer Zeit um von den ersten Ideen bis zum finalen Pitch tragfähiger Konzepte und zur Vorstellung funktionsfähiger Prototypen zu gelangen. Trotzdem haben sich insgesamt 11 Teams gefunden, denen es in dieser kurzen Zeit gelungen ist 11 Projekte zu erarbeiteten, die aufzeigen wie die Zukunft redaktioneller Arbeit und journalistischer Produkte aussehen könnte.

Mit Robot Journalism werden automatisiert Texte und Graphiken erstellt

Die Teams Regio Reports und Loki beschäftigten sich mit der Frage, wie Lokaljournalisten aus großen öffentlichen Datensätzen, wie sie zum Beispiel das statistische Bundesamt regelmäßig veröffentlicht, mit geringem Aufwand für ihre Region relevante Einsichten gewinnen können. Sie entwickelten Algorithmen, die automatisiert Zusammenfassungen und Graphiken für jede Region erstellen und diese an die Lokalredaktionen versenden. Das Team Loki programmierte zudem einen Chatbot, über den Journalisten entsprechende Inhalte anfragen können und der diese dann automatisiert bereitstellt. Das Team Regio Reports wurde für sein Konzept mit dem Preis Best of API Prototype ausgezeichnet.

Abbildung 2: Das Team VizGov gewinnt den Preis Best Overall (Foto dpa)

Das Team VizGov, das mit dem Preis Best Overall ausgezeichnet wurde, konnte die Jury mit einem Programm überzeugen, das automatisiert Bundestagsprotokolle auswertet. So kann das Tool zum Beispiel feststellen, welche Fraktion für die meisten Zwischenrufe verantwortlich ist oder welcher Abgeordnete bei seinen Redebeiträgen den meisten Applaus oder die meisten Lacher erntet. Auch das Team VizGov programmierte einen Chatbot, dem Journalisten solche Fragen stellen können und der dann automatisiert die erfragte Information aus den Protokollen extrahiert.
Journalisten bietet sich eine Vielzahl von Möglichkeiten einen Text oder eine Graphik zu gestalten. Oft jedoch fehlt die nötige Information darüber, welche Form dem Leser am besten gefallen wird. Einen interessanten Workaround für dieses Problem entwickelte das Team Fluid Articles. Es kreierte ein Tool zur Erstellung interaktiver Graphiken, die der Nutzer selbst verändern kann. Anhand der Veränderungen der Graphik durch die Nutzer lernt der Algorithmus welche Darstellung den Nutzern am besten gefällt und präsentiert neuen Nutzern eine überarbeitete Darstellung. Potentiell ist ein ähnliches Konzept auch für Textinhalte denkbar. So können zum Beispiel Textteile, bei denen ein Nutzer das Lesen abbricht, automatisiert überarbeitet werden.

Smarte Algorithmen erleichtern die Arbeit in der Redaktion

Redaktionen stehen bei der Erstellung journalistischer Inhalte permanent unter Zeitdruck. Viele Teams suchten deswegen nach Lösungen um die Arbeit der Journalisten zu erleichtern und zu beschleunigen. Das Team Robocop beschäftigte sich mit dem Problem, dass täglich hunderte von Pressemitteilungen in Redaktionen eingehen und manuell die berichtenswerten Mitteilungen herausgefiltert werden müssen. Für die Entwicklung eines Algorithmus, der automatisiert Polizeiberichte scannt und nach ihrer Wichtigkeit sortiert, wurde das Team mit dem Preis Most Innovative ausgezeichnet. Weitere denkbare Anwendungen des Algorithmus umfassen die automatisierte Prüfung beliebiger Pressemitteilungen auf Relevanz oder das Durchsuchen von Social Media Feeds nach berichtenswerten Ereignissen.

Abbildung 3: Das Team Robocop bei der Arbeit (Foto dpa)

Um Journalisten bei der Recherche zu unterstützen, entwickelte das Team Context ein Programm, das die Berichterstattung über eine Person auswertet und visualisiert. So wird auf einen Blick deutlich, in welchem Kontext eine Person in der Vergangenheit im öffentlichen Interesse stand. Der Algorithmus kann zudem angepasst werden um die Berichterstattung über Organisationen, Länder, Orte und ganz allgemein Themen zu visualisieren.
Ein weiterer wichtiger Punkt für die Produktion qualitativ hochwertiger journalistischer Inhalte ist die Verifizierung von Quellen. Das Team veri easy entwickelte hierfür einen Algorithmus, der die Echtheit von Fotos analysiert. Mit dem Ziel Nachrichtenhäusern Fotos und Videos schneller zur Verfügung zu stellen kreierte das Team Crowdforce eine App, über die sowohl professionelle Fotografen als auch Amateure ihr Bildmaterial anbieten können. Journalisten können in der App dann mit Hilfe von Stichworten, Zeit- und Ort-Restriktionen passendes Material finden.

Durch DataDriven-Publishing werden Leser optimal angesprochen

Bei digitalen Medieninhalten besteht die Möglichkeit eine Vielzahl an Nutzungsparametern wie Leserzahl, Lesedauer und Lesetiefe zu erfassen. Basierend auf diesen Werten können Inhalte optimiert oder Leser-individuell ausgespielt werden. Im Gegensatz zu den Medienhäusern, die die Inhalte direkt an die Leser weitergeben, verfügt die dpa als Nachrichtenagentur, die ihre Inhalte an die Medienhäuser verkauft, allerdings nicht über diese Informationen. Deswegen entwickelte das Team HillSight ein Kooperationsmodell zur Weitergabe relevanter Performance-Parameter von den Medienhäuser an die dpa. Die dpa kann mit Hilfe dieser Informationen ihre Inhalte optimieren und ein werthaltigeres Produkt anbieten. Die Medienhäuser profitieren von der Kooperation dadurch, dass sie für die Erreichung ihrer strategischen Ziele wie Reichweite und Paid-User-Conversion maßgeschneiderte Inhalte erhalten.
Um möglichst vielen Artikeln eine interessierte Leserschaft zu verschaffen, entwickelte das Team Fair chance ein Recommender System für Online-Artikel. Das Team Vor der Tür entwickelte ein Content-Portal, auf dem auf Nachbarschaftsebene interessante Nachrichten gesammelt werden. Über das Portal können lokal relevante Nachrichten, Veranstaltungsinformationen und viele weitere Inhalte sowohl von kommerziellen Anbietern als auch von Privatpersonen geteilt werden. Die Nutzer können selbst steuern über welche Inhalte sie durch das Portal informiert werden möchten.

Schickler begleitete den Hackathon als Sponsor und war mit dem Data Science Team vor Ort. Amr Rekaby Salama und Ole Fehling fungierten als Mentoren und unterstützten die Teams bei technischen und konzeptionellen Fragestellungen. Dr. Christoph Mayer war als Jury-Mitglied bei der Auswahl der besten Beiträge beteiligt.

Interessiert? Bleiben Sie mit dem SCHICKLER.essentials Newsletter auf dem Laufenden!