Entwicklung einer KI-basierten Erkennung von Fake News im Rahmen des #WirVsVirus Hackathons

Durch Fake News werden völkerrechtliche Verstöße oder wirtschaftliche Schäden begünstigt oder verursacht. Gleichzeitig klaffen in der Praxis technische Möglichkeiten zur Aufspürung sowie rechtliche Mittel zur Bekämpfung weit auseinander. Auf beiden Seiten bestehen diesbezüglich Möglichkeiten, trotz des hohen Komplexitätsgrades besteht hier definitiv Aufholbedarf. Insbesondere in einer Notlage und der damit verbundenen Informationsflut erhöht sich deren Relevanz.

Im Rahmen des WirVsVirus Hackathons der Bundesregierung haben sich knapp 44.000 Personen in interdisziplinären Teams zusammengefunden und an Lösungen für diverse Problemkategorien der aktuellen Situation bzgl. COVID-19 gearbeitet. Dabei wurden viele höchstrelevante Projekte umgesetzt. Eines davon, möchte ich, Julius Tutz, euch in Kürze vorstellen: Die KI-basierte Erkennung von Fake News. Dabei habe ich zusammen mit meinem Team bestehend aus Yen Ho, Steffen Freisinger und Daniel Hofmeister ein Modell entwickelt, das mit ca. 90% Genauigkeit Fake News erkennt, mit der Motivation, deren Verbreitung zu verlangsamen oder zu verhindern.

Aufgebaut ist dieses Modell auf dem Deep Language Model BERT, welches mit Texten aus z.B. Zeitungsartikeln, Blogposts oder WhatsApp-Nachrichten „nachtrainiert“ wurde. Für das „Nachtrainieren“ (im Jargon Fine Tuning) dieses Modells ist es notwendig, dass die Texte mit einem Label (True oder Fake News) versehen sind, um entsprechende Zusammenhänge zu lernen. Da gelabelte Daten zu dem Thema Fake News kaum verfügbar sind, haben wir sowohl Web-Crawler entwickelt als auch einen einfachen crowd-gesourcten Ansatz zur Daten-Generierung umgesetzt.

Obwohl dieses Modell sehr gute Evaluationsparameter ausgibt, kann ohne eine Zugriffsmöglichkeit über z.B. eine Web-Oberfläche oder eine App für die Öffentlichkeit kaum Mehrwert generiert werden. An dieser Stelle kam uns der Hackathon zu Gute, bei dem viele Entwickler, Designer, Data Scientists, Experten und andere motivierte Privatpersonen zusammentrafen, um in ihrer Freizeit zu genau diesen Punkten ihren Beitrag zu leisten. Schlussendlich haben wir es geschafft, in Kooperation mit dem Team von Check den Fakt eine Online-Plattform ins Leben zu rufen, die hoffentlich auch nach Ende der Bewertungsphase der Hackathon-Projekte noch Bestand haben wird und Leuten helfen kann, den Informationsgehalt eines Textes anhand eines Fake News Scores zu überprüfen.

Fazit

Als technische Lösung sind maschinelle Lernverfahren äußerst hilfreich. Sie können z.B. echtzeitnah einschätzen, ob die Informationen aus einer validen Quelle stammen oder ob ein Text vertrauenswürdige Informationen enthält. Letztendlich muss in jedem Fall eine Person die Einschätzung von Fakten verifizieren, aber wenn es möglich ist, lasst euch von (guten) AI-basierten Systemen unterstützen! Mehr Informationen zum Hackathon Pitch meines Teams im Rahmen des Hackathons Unser Projekt auf devpost