[Linux] solution d' "indexation"

Jeu 6 Juin 09:35:55 CEST 2019

Merci Christophe d'avoir pris le temps de répondre. Je suis pas trop fort
en SQL mais ça aurait été une bonne solution je pense.

Mais finalement j'ai réussi à trouver mon bonheur. Le mot clé manquant dans
mes recherches était "crawler" et je suis tombé sur diskover
https://github.com/shirosaidev/diskover . Ça me semble très prometteur, à
base d'elastic search.

J'ai monté une maquette avec le docker compose de linuxserver.io
https://hub.docker.com/r/linuxserver/diskover/ et après avoir réglé un
souci de droit du container elasticsearch, ça tourne. J'ai pas encore tout
explorer, mais ça répond à mon besoin primaire.

Bonne journée,
Pierre-damien

Le mer. 5 juin 2019 à 15:54, Christophe Courtois <christophe@::1> a
écrit :

> On 05/06/2019 12:51, pdga@::1 wrote:
> > Je cherche en vain une solution "simple" pour juste indexer les fichiers
> (le contenu n'est pas nécessaire) d'un serveur de fichiers avec plusieurs
> millions de fichiers.
> > Ensuite j'aimerais pouvoir faire des recherches de type : fichiers
> modifiés il y a X ans, taille total et nombre de ces fichiers ; exclure
> certains types et/ou certaines extensions ça serait pas mal aussi
> (peut-être le faire au niveau de l'indexation ?)
> > Pour l'instant je fais un find avec du -mtime Xjours et du printf qui
> m'affiche la date de modification que je mets dans un fichier texte, puis
> du wc -l et un awk qui m'aide à additionner les tailles. Bon ça marche mais
> c'est pas très dynamique, les updates sont pas faciles (on refait tout), ...
>
> > J'ai regardé du côté de Solr mais pfff pas facile, y'a beaucoup à faire
> à la main
> > Elastic search, pas facile non plus.
> > Les "desktop file search" (catfish, fsearch, recoll, ...) : je n'arrive
> pas à sortir ce que je veux, la taille total par exemple. Exporter aussi
> les résultats non plus.
> (etc)
> > Alors je me dis : "suis-je le premier sur la planète à vouloir ça ???"
> :) ou alors je fais pas les bonnes recherches.
>
> Si le problème d'insérer les données (nom, chemin, date, taille) dans un
> outil externe est déjà résolu (un CSV suffit), une bête base de données
> classique genre PostgreSQL n'est-il pas l'idéal?
>
> Recherche et agrégations rapides, export sous le format que tu veux...
>
> Moi aussi je me dis que tu n'es pas le premier à le vouloir...
>
>
> --
> Christophe Courtois
>
-------------- section suivante --------------
Une pièce jointe HTML a été nettoyée...
URL: <https://strasbourg.linuxfr.org/pipermail/linux/attachments/20190606/e90b085b/attachment.htm>