[ubuntu-tn] Couplage solr et Heritrix

Rahma Ben Hammouda rahmabenhammouda at gmail.com
Sam 10 Mar 12:58:40 UTC 2012


Bonjour à tous,

je suis entrain de faire un honeyclient MonkeySpider pour détecter les
malwares et les pirates. J'utilise le moteur de recherche solr.Alors j'ai
un crawling avec Solr et un crawling avec Heritrix.Les deux crawlings
identiques effectués par Solr et Monkey-Spider étaient un handicap majeur
pour l'avancement du projet vu la bande passante limitée et le temps que
prenait cette étape de crawling. Alors j'ai décidé de coupler ces deux
outils et faire de sorte qu'un seul accède à internet pour aspirer les
sites et que l'autre utilise les sites crawlés par le premier outil.Il faut
donc convertir les fichiers arc (donnés par Heritrix) et leurs indexation
par l'outil d'indexation de Solr.
Pouvez vous me guider pour faire ce couplage et merci d'avance

Cordialement
-------------- section suivante --------------
Une pièce jointe HTML a été nettoyée...
URL: <https://lists.ubuntu.com/archives/ubuntu-tn/attachments/20120310/5e04f0a1/attachment.html>


Plus d'informations sur la liste de diffusion Ubuntu-tn