
News & Trends
Reddit-Protest-Aktion: Das steckt dahinter
von Florian Bodoky
Google will nicht nur deine persönlichen Daten, um KI-Bots zu trainieren, sondern das ganze öffentliche Internet. Dafür hat Google seine Datenschutzerklärung geändert. Das wirft Fragen zum Urheberrecht auf.
Google hat am Wochenende seine Datenschutzrichtlinien aktualisiert. Darin behält sich der Online-Gigant das Recht vor, so ziemlich alles, was du jemals online gepostet hast, für das Training seiner KI-Tools zu verwenden. Zumindest, solange solche Daten öffentlich zugänglich sind. Etwa Kommentare in unserer Kommentarspalte.
Mit anderen Worten: Google sieht das ganze öffentliche Internet als Teil seines eigenen KI-Spielplatzes.
Aussergewöhnlich an der neuen Datenschutzerklärung ist der Umfang der Daten, die Google nutzen kann. Es geht nicht nur um Daten, die du ihm beim Verwenden seiner Dienste als eingeloggter User übermittelst. Google spricht gleich von «Daten des gesamten öffentlichen Internets». Bei Datenschützerinnen und -schützern läuten die Alarmglocken.
Der wahre Grund für Reddits drastische Massnahmen dürfte aber deren zentrale Rolle für das Trainieren von Chatbots wie eben Bard und Chat GPT sein. Diese bedienten sich der auf Reddit gesammelten Datensätze, ohne dafür zu zahlen. Bisher profitieren davon aber nur die Unternehmen hinter den Chatbots, wie Google und Open AI. Kein Wunder, will Reddit jetzt auch einen Teil vom Kuchen.
Titelfoto: Luca FontanaIch schreibe über Technik, als wäre sie Kino, und über Filme, als wären sie Realität. Zwischen Bits und Blockbustern suche ich die Geschichten, die Emotionen wecken, nicht nur Klicks. Und ja – manchmal höre ich Filmmusik lauter, als mir guttut.
Vom neuen iPhone bis zur Auferstehung der Mode aus den 80er-Jahren. Die Redaktion ordnet ein.
Alle anzeigenGänzlich neu ist das Vorgehen nicht. Schon vorher sprach Google in seiner Datenschutzerklärung davon, «Informationen» zu sammeln, die «online oder aus anderen öffentlichen Quellen» zugänglich sind. Neu ist aber, dass diese Daten nicht mehr nur zum Training von Sprachmodellen wie etwa Google Translate verwendet werden. Jetzt werden sie auch ausdrücklich «zur Entwicklung» und «zum Training» von KI-Modellen wie Bard und weiteren Cloud-AI-Funktionen verwendet.
Rechtlich gesehen bleibt die Lage aber noch konfus. Google ist nicht das einzige Unternehmen, das öffentlich zugängliche Internet-Daten nutzt, um seine KI-Bots zu trainieren. Um Konkurrent Open AI herrscht ebenfalls Unklarheit, wer eigentlich die Rechte an öffentlich zugänglichen Daten hat und ob diese zum Training von Chat GPT verwendet werden dürfen. Aktuell streiten sich Gerichte in Kalifornien darüber.
Die Privatwirtschaft scheint indes nicht gewillt, auf Klarheit der Rechtsprechung zu warten. Schon vor knapp einem Monat schloss die Community-Diskussionsplattform Reddit Drittanbieter vom Zugriff auf die Website aus, sofern diese nicht dafür bezahlen. Das führte unter Reddit-Usern zu einer Welle der Entrüstung. Sie warfen der Plattform Geldgier vor und riefen einen mehrtägigen Boykott aus. Kollege Florian berichtete darüber:
In dieselbe Kerbe schlug erst kürzlich Twitter. Vergangenes Wochenende liess Twitter-CEO Elon Musk die Anzahl Tweets beschränken, die User pro Tag ansehen dürfen. Laut Musk, um die extrem hohen Levels an «Datenabschröpfung» und «Systemmanipulation» zu unterbinden. Eben: Bots, die Daten sammeln, um KI-Bots wie Bard und Chat GPT zu trainieren. Ob das wirklich der wahre Grund für die Begrenzung der Tweets ist, wird von den meisten IT-Experten allerdings angezweifelt. Sie sehen darin eher eine Kurzschluss-Reaktion auf technische Probleme, die durch Musks Missmanagement oder Inkompetenz entstanden sind – oder beides.
Vital Proteins Collagen Peptides