Re: [TYPO3-german] crawler Konfiguration: Wirkung des Schalters "Use realurl urls"

bienchen10 Wed, 29 Dec 2010 03:52:05 -0800


Wolfgang Kleinbach-2 wrote:
> 
> Bei mir funktioniert der manuelle Aufruf der Queue-Generierung (also 
> über "Info | Site Crawler | Start Crawling") bei Schalter "Use realurl 
> urls" auf "on" nicht.
> 
> Über den Scheduler hab ich es überhaupt noch nicht probiert. Ich hab ja 
> für den Zweck mein Script über cron laufen.
> Funktioniert es denn bei Schalter "Use realurl urls" auf "on" über den 
> Scheduler? Das wäre ja echt merkwürdig ...
>

Bei mir sieht es jetzt so aus:
- Typo3 4.4.5
- Crawler 3.2.0
- realurl 1.10.1
- zwei Crawler Configs: eine für die Seiten, eine für den Inhalt (aktuell
nur tt_news). Bei beiden ist "Use realurl urls" angekreuzt, Startpunkt ist
jeweils die Root-Seite
- im Scheduler gibt es u.a. eine Klasse "Crawler queue (crawler)", die
wiederkehrend (täglich einmal) mit unendlicher Tiefe diese beiden Crawler
Configs abarbeiten soll
- cron ruft minütlich den Scheduler auf (da der ja noch andere Sachen macht)

Folgendes habe ich jetzt ausprobiert:

#####

Beim automatischen Aufruf des Schedulers über cron wird logischerweise im
Ergebnis eine Mail vom System an den Eigentümer des cronjobs geschickt, die
die bekannte Fehlermeldung 
"Fatal error: Call to a member function setTSlogMessage() on a non-object in
/var/www/htdocs/www.bds-news.de/html/typo3conf/ext/realurl/class.tx_realurl.php
on line 2452"
enthält.
Durch das harte Ende wird der "crawler queue"-Job im Scheduler niemals als
"beendet" gekennzeichnet.

#####

Gehe ich auf "Info" - "Site Crawler" - "Start Crawling", wähle dort meine
Crawler Configs aus (vorher natürlich Root-Page ausgewählt, "unendlich" und
Scheduled auf "now") und dann "Crawl URLs", wird das akzeptiert und auch
gestartet. Laut Log führt er das dann auch ordentlich ohne Fehlermeldungen
aus.

Es gehen mir noch einige Seiten dabei ab (etliche News-Artikel fehlen), aber
das ist vermutlich nichts, was damit zusammenhängt. Das muss ich separat
untersuchen.

#####

Gehe ich auf "Scheduler", wähle den Task mit der "crawler queue" aus und
starte diesen manuell, bekomme ich nach wenigen Sekunden ein grünes
"Ausgeführt: Crawler queue (crawler)" zurück, der Ausführungsstand des Tasks
steht auf "fertig" und bei "letzter Ausführung" steht die passende Uhrzeit
und "manuell". In der Crawler-Queue stehen dann wieder passend viele Seiten
zur Abarbeitung, was der Crawler-Durchlauf dann alles ordentlich erledigt.

#####

Rufe ich manuell mein Shellscript auf, das im Prinzip nur enthält:

cli_dispatch.phpsh crawler_im 1 -d 99 -o queue -n 1000 -conf
index_seiten,index_artikel

dann Fehlermeldung wie oben

#####

Fazit:
- manuelle Ausführung der Queue-Generierung über das BE: funktioniert
- Queue-Generierung über Script bzw. Cron: funktioniert nicht

Was den Scheduler betrifft:
Ich fand den Scheduler recht komfortabel, weil da der Eigentümer des Servers
nicht ständig im cron rumfummeln muss, sondern er alles im Typo3-BE
einstellen kann.

Wolfgang Kleinbach-2 wrote:
> 
> Interessanterweise habe ich mit zwei anderen Installationen, bei denen 
> ich hinsichtlich der Konfiguration eigentlich keinen Unterschied zu der 
> Installation mit dem Problem erkennen kann, nach dem Einspielen des 
> crawler-Patches keinerlei Probleme bei Schalter "Use realurl urls"
> auf "on".
> 

Jetzt muss ich mir den Patch mal genauer anschauen...

Ciao
Stefan

-- 
View this message in context: 
http://old.nabble.com/crawler-Konfiguration%3A-Wirkung-des-Schalters-%22Use-realurl-urls%22-tp30540561p30550709.html
Sent from the TYPO3 German mailing list archive at Nabble.com.

_______________________________________________
TYPO3-german mailing list
TYPO3-german@lists.typo3.org
http://lists.typo3.org/cgi-bin/mailman/listinfo/typo3-german

Re: [TYPO3-german] crawler Konfiguration: Wirkung des Schalters "Use realurl urls"

Antwort per Email an