WebDB logo

WebDB

Das WebDB Projekt hat sich damit beschäftigt gezielte Informationen automatisiert von Webseiten zu extrahieren und in einer eigenen Datenbank zu archivieren. Als Anwendungsbeispiel haben wir uns mit der Online Datenbank IMDb beschäftigt. In IMDb sind alle nenneswerte Filme aufgelistet und mit relevanten Informationen wie Besetzung, technischen Details, Soundtrack, etc. versehen. Jedoch ist es auf IMDb sehr schwierig deutlich kompliziertere Fragen auszuwerten. Auf Fragen wie ‘In welchem Jahr zwischen 2000 und 2010 wurden die meisten Filme gedreht?’ findet man auf IMDb keine schnelle Antwort. Solche Fragen lassen sich oft jedoch als SQL Query übersetzen.

Das Ziel unseres Projekts ist somit alle Daten eines Films, der auf IMDb aufgelistet ist, gezielt abzurufen und in einer eigenen relationalen Datenbank zu speichern. In dieser Datenbank können nun komplizierte Queries gestellt werden. Hierzu war ein großer Fokus im Projekt wie man in einem HTML Dokument gezielt eine Information selektieren kann und anschließend alle wichtigen Informationen automatisiert zu extrahieren und sinnvoll zu archivieren.

In dieser Webanwendungen stellen wir unseren Datensatz zur Verfügung zum selbst Ausprobieren.

Zur WebDB-Seite



Dieser externe Inhalt von drive.google.com wird erst nach einem Klick geladen.