Ich möchte Euch erklären, wie man die TYPO3 Extension Crawler einsetzen kann, um die Seiten für die TYPO3-Suche automatisch indizieren zu lassen.

Normaler weise erzeugt TYPO3 beim ersten Zugriff auf eine Seite den Index für diese Seite. Hat man viele Frontend Benutzergruppen, so muss TYPO3 für jede Kombination von Benutzergruppen die ein Frontend User haben kann, einen eigenen Index der Seite anlegen.

Der Crawler ermöglicht es nun, diesen Index automatisiert zu erzeugen.

  • Als erstes installiert man die Extension Crawler.
  • Danach legt man einen Backend User “_cli_crawler” an. Dieser wird benötigt, weil wir später per Cronjob den Crawler starten wollen.
  • Nun konfiguriert man den Crawler mittels TSConfig. Dazu bearbeitet man die Seiteneigenschaften der obersten Seite und trägt in das Feld TSConfig folgendes ein:

#set up a crawl for users that arent logged in
tx_crawler.crawlerCfg.paramSets.test =
tx_crawler.crawlerCfg.paramSets.test {
cHash = 1
procInstrFilter = tx_indexedsearch_reindex, tx_indexedsearch_crawler
baseUrl = http://<meineDomain.de>/
}

#set up a crawl for users who have group id of 1
tx_crawler.crawlerCfg.paramSets.grp1 < tx_crawler.crawlerCfg.paramSets.test
tx_crawler.crawlerCfg.paramSets.grp1{
userGroups = 1
}

… usw. für jede Gruppenkombination

Damit ist der Crawler konfiguriert. Für eine Anleitung, was alles konfiguriert werden kann, schaut bitte in die Extension-Dokumentation.

Als nächstes werden wir zwei Skripte erstellen. Das erste Skript erstellt die “Crawler-Queue”, definiert also, was der Crawler alles tun soll. Dieses Skript werden wir z.B. einmal die Woche aufrufen. Das zweite Skript ist dafür da, die Queue abzuarbeiten. Dieses werden wir alle zwei Minuten starten.

Skript Queue erstellen:

php pfad/zum/htdocs/typo3/cli_dispatch.phpsh crawler_im 1049 -d 99 -proc tx_indexedsearch_reindex -n 1000 -o queue

Die Parameter bedeuten folgendes:

  • crawler_im: Sorgt dafür, dass das Tool aufgerufen wird, dass die Queue erstellt
  • 1049: Die Seiten-ID, aber der gecrawled werden soll
  • -d 99: Die Rekursionsstiefe
  • -proc tx_indexedsearch_reindex: Es soll indiziert werden
  • -n 1000: Wieviele Einträge pro Minute sollen erzeugt werden
  • -o queue: Es soll die Queue erzeugt werden

Skript für das Abarbeiten der Queue:

php pfad/zum/htdocs/typo3/cli_dispatch.phpsh crawler

Zum Schluss erstellen wir zwei Cron-Jobs:

  • Aufrufen des ersten Skriptes z.B. einmal die Woche
  • Aufrufen des zweiten Skriptes alle zwei Minuten

Vielleicht helfen Dir ja auch die folgenden TYPO3 Tipps?

Popularity: 16%