[ubuntu-tn] Couplage solr et Heritrix
Rahma Ben Hammouda
rahmabenhammouda at gmail.com
Sam 10 Mar 12:58:40 UTC 2012
Bonjour à tous,
je suis entrain de faire un honeyclient MonkeySpider pour détecter les
malwares et les pirates. J'utilise le moteur de recherche solr.Alors j'ai
un crawling avec Solr et un crawling avec Heritrix.Les deux crawlings
identiques effectués par Solr et Monkey-Spider étaient un handicap majeur
pour l'avancement du projet vu la bande passante limitée et le temps que
prenait cette étape de crawling. Alors j'ai décidé de coupler ces deux
outils et faire de sorte qu'un seul accède à internet pour aspirer les
sites et que l'autre utilise les sites crawlés par le premier outil.Il faut
donc convertir les fichiers arc (donnés par Heritrix) et leurs indexation
par l'outil d'indexation de Solr.
Pouvez vous me guider pour faire ce couplage et merci d'avance
Cordialement
-------------- section suivante --------------
Une pièce jointe HTML a été nettoyée...
URL: <https://lists.ubuntu.com/archives/ubuntu-tn/attachments/20120310/5e04f0a1/attachment.html>
Plus d'informations sur la liste de diffusion Ubuntu-tn