proof-of-peter: Das grundlegende Verhalten steht

Autor:
Kategorie: Development

Gerade habe ich eine Art proof-of-concept auf GitHub geladen. Wir haben jetzt eine erste einfache Struktur und eine einfache Funktionsweise ohne viel Schnickschnack.

An der app.js vom letzten Artikel hat sich nichts geändert. Dafür haben wir jetzt die simple Logik, um das Konzept von peter zu verdeutlichen.

Eigentlich wollte ich für das Scraping ja artoo.js in Verbindung mit request nutzen, allerdings habe ich jetzt x-ray gefunden, was mir (ohne groß zu testen) als sinnvoller erschien.

Aktueller Stand

Nach dem Start der Applikation wird man nach einem Suchstring gefragt. X-ray legt daraufhin los uns setzt einen Request zu Google ab. Aus der Ergebnisseite werden dann die Links zu den Zielseiten extrahiert. Für später interessant: x-ray kann auch vollautomatisch paginieren, was uns später die Möglichkeit bietet, mit einer Einstellung die Menge an Zielseiten näher zu spezifizieren.

Die gefundenen URLs werden dann jeweils abgeholt. Für das Scraping wird aktuell alles innerhalb des body-Tags der Seite in Betracht gezogen. Ein Problem hierbei ist, dass auch Inline-Javascript in der Ergebnismenge auftaucht. Wie ich dieses Problem lösen möchte, weiß ich aktuell nicht, vielleicht hat ja jemand eine Idee.

Am Ende bekommt man eine sortierte Liste mit den 50 häufigsten Wörtern.

Next steps

Das Ergebnis ist natürlich noch stark zugemüllt: wir haben viele irrelevante Wörter und einen Sprachen-Mix. Als Erstes möchte ich die Ergebnismenge filtern können. Dabei sollen zunächst Stoppwörter ausgeschlossen werden. Danach werde ich mal schauen, ob ich den Sprachen-Mix in den Griff bekomme, oder ob das erst mit der Google Custom Search Engine sinnvoll machbar ist. Nach einer Rekapitulation geht es dann auch schon weiter mit einem anständigen GUI im Browser.

Ihr könnt den aktuellen Status auf GitHub verfolgen, oder natürlich gleich forken und mitmachen ;)

Artikelreihe

Dieser Artikel ist Teil einer Reihe. Hier findest du die zugehörigen Artikel:

  1. Darf ich vorstellen: peter - Ein Keyword-Research-Tool mit Node.js
  2. peter: GitHub-Repo und Gedanken zum Scraping
  3. proof-of-peter: Das grundlegende Verhalten steht

Artikel bewerten

Kommentare

comments powered by Disqus
Top