Datensammlung
Kundenbewertungen von Bulk-Produkten wurden von einer Bewertungswebsite gesammelt. Hierbei wurden sowohl die Bewertungsskalen (z. B. Sternebewertungen) als auch die dazugehörigen Kundenkommentare erfasst. Im Folgenden sind die einzelnen Schritte klar und verständlich beschrieben.
Auswahl der Plattformen
Bei der Sammlung von Online-Bewertungen für Bulk-Produkte ist eine Plattform besonders geeignet: Trustpilot
Trustpilot ist eine renommierte Bewertungswebsite, auf der Kunden unabhängig von der Kaufplattform ihre Erfahrungen teilen. Hier finden sich Meinungen zum Kundenservice, zur Lieferung und anderen Aspekten des Einkaufserlebnisses.
Datensammlung: Nutzung des Web-Scraping-Tool rvest
Das Web-Scraping-Tools "rvest" wird zur Extraktion von Sternebewertungen und Kundenkommentaren von der Trustpilot-Produktseite genutzt. Die Verwendung von rvest ist eine effektive Methode, um Daten aus Webseiten zu sammeln und zu analysieren.
Zunächst wurden die benötigten Pakete geladen und die URL der Produktseite gespeichert. Anschließend wurde die Anzahl der zu scrapenden Seiten festgelegt und eine Sequenz von Seitennummern erstellt.
In einer Schleife wurde für jede Seite der HTML-Inhalt abgerufen und die Sternebewertungen, Kundenkommentare und das Datum mit Hilfe der rvest-Funktionen extrahiert. Die extrahierten Daten wurden in vordefinierte Vektoren gespeichert. Nachdem alle Seiten durchlaufen wurden, wurden die gesammelten Daten in einen Datensatz eingefügt.
Wichtig war es, den HTML-Code der Trustpilot-Produktseite genau zu untersuchen und sicherzustellen, dass die richtigen HTML-Tags verwendet wurden, um die gewünschten Daten korrekt zu extrahieren.
Datenbereinigung
In der Datenbereinigung wurden die gesammelten Daten auf mögliche Fehler und Inkonsistenzen überprüft. Dies beinhaltete das Identifizieren von doppelten Einträgen, fehlenden Bewertungen oder fehlerhaften Textextraktionen.
Doppelte Einträge wurden entfernt und fehlende Bewertungen wurden durch den Abgleich mit anderen Quellen ergänzt. In einigen Fällen wurden fehlerhafte Textextraktionen manuell korrigiert.