Yahoo gibt Big-Data-Sammlung für KI-Forscher frei

(Bild: Facebook)

Die Datensammlung beansprucht unkomprimiert eine Kapazität von 13,5 Terabyte und wird Yahoo News Feed genannt. Einem Blogbeitrag von Suju Rajan der Yahoo Labs zufolge machte man den Yahoo News Feed Datenwissenschaftlern zugänglich, damit diese die Informationen als Test- und Analysematerial nutzen können.

Unternehmen wie die Online-Suchmaschine Yahoo sammeln permanent enorme Datenmengen. Sie lassen sich für Werbezwecke nutzen, aber geben auch Aufschluss über menschliches Verhalten oder thematische Zusammenhänge. Damit sind solche großen Datensätze, auch Big Data genannt, insbesondere für Forschende an Künstlicher Intelligenz (KI) interessant.

„Viele akademische Forscher und Datenwissenschaftler haben keinen Zugang zu wirklich großen Datensätzen, weil diese traditionell nur in großen Firmen vorhanden sind“, schreibt Rajan. Es handle sich um anonymisierte Zugriffe von etwa 20 Millionen Nutzern auf eine Reihe von Yahoo-Sites, darunter die Bereiche Filme, Finanzen, Immobilien, Nachrichten und Sport sowie die Yahoo-Homepage. Dafür wurden zwischen Februar und Mai 2015 über 110 Milliarden Vorgänge erfasst.

Die anonymen Daten enthalten gleichwohl Angaben zum Altersbereich, Geschlecht und ungefährem Standort, daneben Zeitstempel, Titel, Zusammenfassungen und Schlüsselausdrücke abgerufener Artikel. Auch spezifizieren sie, welches Gerät und welche Software für den Zugriff genutzt wurde. Sie enthalten auch Bilder und die mit den Inhalten ausgelieferte Werbung.

Als ersten Nutzer der Daten für die akademische Forschung weist Yahoo die University of California in San Diego vor. Diese erprobt damit den Einsatz von „Maschinellem Lernen, Künstlicher Intelligenz und Big-Data-Anwendungen.“ Für die Universität kommentiert Professor Gert Lanckriet: „Zugang zu Datensätzen dieser Größe ist essenziell, um Algorithmen und Techniken für Maschinelles Lernen zu konzipieren und zu schreiben, die sich dann für wirkliche ‚Big Data‘ eignen.“

Forscher können die Daten aus der Webscope-Bibliothek der Yahoo Labs herunterladen. Komprimiert umfassen sie immer noch 1,5 TByte. In Webscope hatte Yahoo insgesamt schon 56 Datensammlungen verfügbar gemacht. Die bisher größte umfasste unkomprimiert 1 TByte.

Yahoo hat sich zuletzt besonders intensiv um externe Entwickler bemüht. So wurden Algorithmen für die Auswertung von Datenströmen und ein speziell für strukturierte Daten auf Websites ausgelegter Webcrawler öffentlich gemacht.

Die auf Mobilanwendungen und Unterhaltung ausgerichtete Strategie von CEO Marissa Mayer scheint aber noch nicht zur erhofften Trendwende zu führen. Im Management muss Yahoo immer wieder Abgänge hinnehmen, und die Belegschaft will das Unternehmen nun einem Bericht zufolge um zehn Prozent reduzieren. Es reagiert damit offenbar auf Kritik von Investoren, die auch schon Mayers Ablösung fordern.

Tags :Quellen:Bild: FacebookVia:Florian Kalenda, ZDNet.de

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Advertising