Development

peter: GitHub-Repo und Gedanken zum Scraping

Autor:
Kategorie: Development

Ich habe in der Zwischenzeit den Autor des Originalartikels kontaktiert, denn ohne seine Zustimmung möchte ich keinen Code von ihm veröffentlichen.

Bis zur Zustimmung des Autors werde ich nur vage Codeschnippsel veröffentlichen und erst nach seiner Bestätigung vollständigen Code online stellen. Falls ich keine Bestätigung bekommen sollte (bisher hat er sich ja nich gemeldet), werde ich mit der Veröffentlichung warten müssen, bis praktisch kein Originalcode mehr vorhanden ist und durch meine eigenen Logiken ausgetauscht wurde. 

Eine GitHub-Repo habe ich bereits angelegt, die ist aber noch leer. Als Entschädigung gibt's ein Mini-Codeschnippsel, nämlich den vorläufigen CLI-Einstiegspunkt von peter:

Die erste Version soll ja ausschließlich über Konsole funktionieren, also laden wir prompt um einfach an Benutzereingaben zu kommen. Die Applikation lädt zudem config und reicht die entsprechende Konfigurationen in die Programmteile durch.
Nach der Eingabe legt die Applikation los und liefert dann die Ergebnisse, ebenfalls in der Konsole.

Scraping

Als Scraping (oder web scraping) bezeichnet man den Vorgang, gezielt Informationen aus einer Website zu extrahieren. Je nach Programmiersprache gibt es hier veschiedenste Implementierungen. 
Rein zufällig bin ich gestern über artoo.js gestolpert. Diese kleine Applikation bietet Werkzeuge, um sich mit jQuery-ähnlichen CSS-Selektoren durch den DOM-Baum zu navigieren und Daten zu extrahieren. Das Besondere an artoo.js ist, dass es eigentlich für die Nutzung in der Browser-Konsole gedacht ist, aber man kann es auch direkt in Node.js einbinden.

Ich habe mich noch nicht festgelegt, aber artoo.js wäre ein guter Kandidat, um mir beim Scraping unter die Arme zu greifen. Trotzdem werfe ich aber mal vorher Dr. Google an und schaue, welche packages es noch so gibt.

Kennst Du ein gutes Node.js-Paket für's Scraping? Ich freue mich auf Vorschläge in den Kommentaren oder als Tweet!

Artikelreihe

Dieser Artikel ist Teil einer Reihe. Hier findest du die zugehörigen Artikel:

  1. Darf ich vorstellen: peter - Ein Keyword-Research-Tool mit Node.js
  2. peter: GitHub-Repo und Gedanken zum Scraping
  3. proof-of-peter: Das grundlegende Verhalten steht

Artikel bewerten

Kommentare

comments powered by Disqus
Top