mardi 16 avril 2024

Le Moteur de Recherche p2p Yacy: Buggé à Mort

Ce moteur de recherche p2p qui prétend etre contre la censure est encore une alternative qui ne fonctionne pas.

Des qu'on l'utilise, on commence de voir les problemes, problemes déjà mentionnés maintes et maintes fois dans les forums à ce sujet mais que jamais de nouvelle version ne vient régler, la seule mise à jour importante depuis des années est leur page de téléchargement ou les fonctions de dons d'argent ont été bien mise en avant et visible, alors que ça fait des années qu'ils ne mettent plus à jour ce moteur de recherche pleins de bugs et quasi inutilisable. 

Il ne crawl meme pas les site en javascript, nombre de site visible sans probleme dans un navigateur semble censurer exprés yacy pour que les pages ne renvoient rien , j'ai ai déjà fait l'expérience.

Sur la homepage on peut voir qu'il est facile a installer sur diverses plateformes, et le probleme est bien là, il est facile à installer mais a utiliser, nettement moins...

Ce moteur de recherche en effet ne permet avec les réglages par défaut que de ne rien faire, il faut pour arriver à archiver plusieur milliers de pages l'autoriser à utiliser plusieurs gb de mémoire et là d'autres problemes arrivent.

Contrairement à ce qui est indiqué, impossible de faire crawler des milliers de pages par minutes, meme avec des dizaines de sites à crawler ça sera quelques centaines au maximum, il arrive de voir des pointes à quelques milliers mais c'est ultra rare et on ne sais pas pourquoi ni comment.

Souvent, yacy disparait, il faut le relancer, parfois meme ça ne se relance jamais, ça charge indéfiniment et il faut alors supprimer le dossier de l'index freeworld et recommencer ou charger une sauvegarde.

Dans la documentation ils prétendent que changer des réglages  y changent quelquechose mais non, j'ai modifier tous les réglages que je pouvais, dans la config avancée, dans l'ini, mais non rien n'y fait. Meme avec 24gb de mémoire, yacy fini toujours par saturer la mémoire et l'interface déjà trés lente ne répond plus, meme en le laissant plus d'une journée ça ne répond plus jamais.

Quand on dépasse les quelques milliers de pages, ça devient impossible quasiment de bien fonctionner, les recherches sur mon index local ne donnent quasi jamais rien meme avec des millions de pages indiquées (+40millions), c'est ultra lent d'obtenir les résultats des autres yacy du réseau pourtant j'ai une bonne connexions de 300mb en fibre, le probleme n'est donc pas là du tout.

Ce moteur de recherche est une bonne idée mais tellement buggé et lent qu'il ne sert pas à grand chose.

Un probleme est que ça semble bien fonctionner et plus de pages ne sont crawlées, sans raison apparente, dans les logs ca m'indiquait que ça mettait des pages à charger, il n'a fait que ça pratiquement de toute la journée d'aprés les logs et en fin de journée ça m'indique que yacy est en mode junior, qu'il ne peut se connecter à d'autres pairs, là aussi sans raison ni explications de la cause.

J'ai fermé et redémarré et il est toujours indiqué en mode junior mais le crawl a repris , mais pour combien de temps ?!

Bref on dirait que chaque fonction est complétement buggée et aucun moyen de changer des options pour améliorer, rien n'y fait, quoi qu'on fasse ça finit toujours par ne plus fonctionner et il faut relancer pour que ça refonctionne quelques temps puis ça ne fonctionne plus de nouveau....

Je pensais avoir trouvé une version maintenant plus récente, https://github.com/smokingwheels/YaCy mais le probleme est que c'est encore pire, ça ne commence meme pas de charger quoi que ce soit, apparemment ça serait du au fait que ça fait comme si java n'était pas installé, pourtant j'ai essayé de relancer yacy aprés et ça se lance sans probleme, donc cette version prétend régler des problemes (je l'ai vu récemment sur le forum yacy) alors qu'en fait ça ne trouve meme pas java déjà installé sur le systeme, il y a différentes version de java fournies avec mais ça ne change rien du tout, l'un ou l'autre lien ne fonctionne pas ou ne fait rien.

J'ai quand meme essayé de voir le code source dans l'editeur Eclipse, voulant modifier quelques variables mais là aussi rien n'y fait, je télécharge le code source suivant plusieurs moyens à chaque fois un probleme, soit ça s'importe bien mais ça ne détecte pas Java quand je veux le lancer, j'ai essayé de modifier dans le systeme le parametre javacmd, le mettre dans la liste des variables des dossiers systeme, je vérifie avec cmd echo ça va, mais non rien n'y fait java n'est pas détecté.

Pire encore je vois que l'éditeur m'indique des milliers d'erreurs ?!


Je modifie quand meme les variables en compilant donc les fichiers changé avec l'installation depuis github dans eclipse et changer les fichiers compilés pour les remplacer dans mon installation de yacy qui fonctionne par les nouveaux modifiés. 

Je voulais changer dans un fichier qui semble etre le nom de robot yacy, parce qu'en fait les variables dans la config avancée de yacy sur le nom du bot ne changent pas meme si on les change dans les parametres avancées, dans le fichier source il est indiqué que c'est pour les demandes de version personnalisée payantes, je modifie le code source, je compile, un fichier seulement a changé, dans la liste des fichier, un seul est du jour celui apparemment recompilé, je le met dans l'installation de yacy qui fonctionne, mais bien sur je relance yacy et rien ne change, le nom envoyé est toujours celui de yacy par defaut avec ma config systeme, version de navigateur,etc (je le vois dans un petit logiciel qui affiche les connexion sur l'ordi),  donc c'est bien une variable qui est lancée durant l'utilisation...

C'est là que j'ai arrêté de m'intéresser à modifier ce logiciel, trop buggé.

Le pire est que lorsqu'on recherche, c'est apparemment fait a l'origine par un programmeur allemand diplomé officiellement !

---------------

J'ai essayé de relancer yacy avec une nouvelle installation, en mettant pour que le site ne soit crawlé qu'une fois par jour avec un maximum 100 ou 1000 pages, pour qu'il n'y ait que les nouvelles pages mais meme ça ne fonctionne pas, ça indique bien dans la liste des pages que le nombre de page pour ce domaine est dépassé, mais le probleme est que meme deux jours aprés, dans running crawl le domaine est toujours actif, ça indique toujours que le nombre de pages est dépassé comme configuré, mais le crawl ne s'arrête jamais, ça n'ajoute pas les pages dans yacy mais ça encombre et sature la mémoire et les ressources pour rien. On dirait que la moindre fonction de ce logiciel est buggé pour saturer la mémoire. Et là je ne suis meme pas a 2 millions de pages enregistrées et a peine plus d'une dizaine de "running crawls" (de sites différents à crawler en meme temps).

J'ai même essayé de le lancer en temps que service windows mais ça ne change rien du tout.

Bref, on se demande bien à quoi sert ce logiciel, qui est tellement buggé qu'il ne sert presque à rien. 


Yacy indique que le nombre de page défini dans les options pour ce domaine est dépassé mais ça dure comme ça indéfiniment, meme deux jours aprés et ça continue d'afficher cette erreur au lieu de terminer le crawl

--------------

Avril 2023

J'ai récemment voulu remettre yacy pour quand même laisser transférer les urls déjà crawlés à d'autres du réseau via la fonction de transmission des urls (dht) mais ça semble fonctionner relativement bien mais j'ai quand meme mis quelques sites à crawler avec peu de pages (max 1000 par exemple) pour ne pas surcharger d'urls en attente et que ça bloque le reste. 

Et bien non, cette fois une nouvelle erreur est apparue pour plein d'urls de sites différent au début je pensais que c'était le nouveau site mais non, sur un autre site que j'ai crawlé peu souvent mais depuis longtemps la meme erreur apparait en meme temps, je soupçonne que là c'est pas yacy mais ceux abusant de technologies avancées qui me mettent une étrange erreur sur tous les fichiers non html (pdf, mp3, etc) qui peuvent être chargés, ça m'indique que le code est correct (200) mais que le corps du document n'a pas été chargé, donc la réponse est vide en fait...  

J'ai ressayé quelques jours aprés, mais pareil, avec un autre site en plus ça fait pareil sur les fichiers non html (pdf, mp3,...), et ça recommence de bloquer au bout de 24h environ, le lendemain, c'est quoi cette fois, des abrutis avec technologie avancée qui se sont dit que yacy était comme une saison de 24h chrono, que ça devait durer que 24h ?!

--------------

J'ai quand même réessayé peu aprés avoir écrit ci dessus et bien sur changement, j'ai mentionné que ça plantait toutes les 24h environ et là curieusement ça remarche plus longtemps 2 jours environ mais la fonction de pourquoi je l'utilisais (transférer les résultats de recherche, la dht), a bloqué, au bout de 24h là environ, le lendemain, alors que ça a toujours bien marché cette fonction (on voit dans senturls et ça indique dans le log quand des résultats sont transférés), la ça ne fonctionne plus sans raison, durant des heures ça n'a rien transféré du tout sans raison et puis ça a buggé, yacy à surchargé apparemment (meme avec 20go de mémoire alloué presque que pour transférer et crawler deux trois sites a meme pas 100ppm). 

Et j'ai réessayé pareil, aprés un peu moins de 24h, ça ne répond plus rien, et mieux encore je regarde dans le menu contextuel si il y a redémarrer, et bien non, et ça me fait comme si je cliquais sur arrêter et je vois yacy s'arrêter... 

On me force même à arrêter yacy au bout d'un peu moins de 24h.

Et ils osent demander des dons sur paypal, github, patreon... 

--------------

J'ai reessayé encore et encore et ça plantait quasi aprés le chargement, quelques minutes aprés, j'ai envoyé des logs d'erreurs chez java comme indiqué dans le log, mais aprés ça a marché quelques heures et de nouveau la même erreur. Mais je soupçone que ça soit des erreurs générées par des technologies avancées à distance qui en rajoutent au erreurs de ce programme. 

Cette fois ils ont même allés jusqu'a déconnecté un instant mes disques externes ou il y a yacy et les sauvegardes de vidéos (deux disques différents sur port usb différent), ils se sont déconnectés en meme temps et reconnecté de suite, mais ça a fait planter le logiciel p2p qui refonctionnait normalement au bout de même pas une journée. Dès que quelques chose fonctionne bien, on me le supprime rapidement pour m'emmerder.

--------------

Les bugs ont encore changés avec ce logiciel, cette fois ça fonctionne pendant une semaine environ, et tout d'un coup l'interface ne répond plus, dans les logs ça semble fonctionner normalement, mais l'interface ne répond plus, la page n'indique rien, pas que il y a erreur, ça charge indéfiniment, j'ai laissé plusieurs heures la pages d'interface charger, mais rien, même aprés une nuit, ça charge sans indiquer aucune erreur ni quoi que ce soit... 

 

--------------

Et j'ai relancé deux fois et pareil, le même problème mais maintenant ça ne dure meme pas 24h l'accés à l'interface, ça semble fonctionner normalement quand on lit les logs mais l'interface ne répond plus jamais. 

--------------

Une nouveauté dans le harcélement, cette fois régulièrement, le nombre de page indiqué à crawler en attente se bloque plus ou moins longtemps sur un nombre qui contient le fameux 666, je l'ai remarqué depuis pas mal de temps, là depuis une heure ça ne crawl plus rien et c'est bloqué sur 710 666 pages en attentes...

Leur nouveau truc est de  me bloquer au bout de quelques heures du réseau yacy, ca indique que mon installation yacy n'est pas visible pour les autres, on ne sait pas pourquoi, je ne change rien à la config, à l'ordi, à la connexion internet mais d'un moment à l'autre je ne suis plus "visible" pour les autres utilisateurs, on ne sait bien sur ni pourquoi ni comment !

Et pareil le lendemain, j'ai redémarré, ça remarchait et au bout de quelques heures ça refait pareil cette erreur là, de ne plus rien crawler sauf les rss, ils ont encore trouvé une nouvelle façon de m'ennuyer à reproduire des erreurs pareilles.

--------------

Je me suis souvenu qu'il y a déjà plusieurs années, j'avais essayé de commencé de faire un petit crawler, c'était pour faire un sitemap des sites au début mais j'ai a peine essayé de faire le premier essai de crawler qu'au bout de quelques dizaines de secondes, je vois une image comme sur l'écran de l'ordi comme d'un type militaire assis qui fait avec sa bouche le même mouvement que les poissons sortant de l'eau pour respirer, puis ça s'arrête et je n'ai jamais pu retoucher à ce programme, on m'en a empêché. 


--------------

Un autre probleme de configuration est quand je change la valeur maximale de system load pour éviter la surcharge, puisque j'ai découvert qu'aprés quelques minutes, ou quelques temps, cette valeur rechangeait comme ça, sans intervention de ma part, et était de nouveau augmentée, je ne sais pas comment, si yacy est fait comme ça, par remote controle à l'insu de l'utilisateur, ou autre, quoi qu'il en soit on ne peut encore pas utiliser et configure yacy comme on veut qui là aussi semble donc fait pour surcharger.

Je baissais fortement cette valeur en mettant à 4 par exemple et aprés quelques temps quand je revérifais, elle était de nouveau augmentée, à 6 ou à 8 ... 

Comme par "Magie" !

 

 --------------

J'utilise la version derniere officielle release datant d'il y a quelques années et comme pour youtube-dl ils ont arrêté de faire des release officielles simples à installer et utiliser et donc c'est bien moins facile d'accés.

J'ai essayé de télécharger la version depuis github, mais bien sur contrairement à ce qui est indiqué ça ne fonctionne pas, je ne sais pas pourquoi, la fenetre de console se lance mais s'arrête aprés avoir indiqué quelques lignes qu'on a pas le temps de lire.

Pourtant sur la page github https://github.com/yacy/yacy_search_server#readme c'est indiqué ceci pour le lancer:

 

Start and stop it

Startup and shutdown:

  • Windows:

    • Start by double-clicking startYACY.bat
    • Stop by double-clicking stopYACY.bat

 

Et même plus loin il est indiqué qu'on peut avoir des millions de pages dans l'index, hors d'aprés mon expérience, yacy est trés vite saturé et ne fonctionne pas bien du tout aprés quelques milliers de pages, pour fonctionner sans planter trés souvent, j'ai du rapidement aprés quelques millions de pages mettre plus de 20g de mémoire sinon ça indiquait tous le temps qu'il manquait de mémoire, yacy est présenté comme facile d'utilisation mais ça n'est pas du tout le cas et github laisse faire, c'est un programme ultra buggé qui ne fonctionne pas du tout aussi bien que prévu, mais ils laissent faire! 

On nous bassine avec le moindre téléchargement dans le navigateur indiqué comme "dangereux", les addons maintenant sont si dangereux qu'on ne peut meme plus les installer sans passer par les vérifications de google et autre mais yacy buggé à mort sur github ça passe sans probleme, on voit bien qu'on fait  tout ça pour se ficher des utilisateurs en réalité :


Scaling, RAM and disk space

You can have many millions web pages in your own search index. By default, 600MB RAM is available to the Java process. The GC process will free the memory once in a while. If you have less than 100000 pages you could try 200MB till you hit 1 million. Here you can adjust it. Several million web pages may use several GB of disk space, but you can adjust it here to fit your needs.

 

Bien sur, j'ai suivi aussi les instructions pour le compiler dans eclipe comme indiqué mais bien entendu, ça ne fonctionne pas, ça se compile, ça se lance, on voit l'icone de chargement de yacy normalement mais une journée plus tard ça indiquait toujours yacy en démarrage et l'interface 8090 ne répondait pas ....

[ Ils prétendent sur leur page officielle que c'est facile à installer et utiliser sur plusieurs OS mais en fait non, puisque les dernieres versions ne sont pas comme ça, il faut être un programmeur professionel apparemment pour pouvoir les utiliser, simplement les télécharger et même en suivant les instructions ça ne fonctionne pas ]

-----------------------

Un autre probleme intattendu indirecte, est que j'avais envoyé des logs à JAVA la société qui fait le systeme Java de yacy, et j'ai été informé que ces abrutis ayant reçus mes logs étaient allés porter plainte contre moi et que ce sont encore des services secrets qui ont appelés pour les arrêter, ces abrutis inventaient n'importe quoi alors que je n'avais fait qu'utiliser normalement le site pour les envois de bugs et en fait c'était leur formulaire qui tronquait les messages ne laissant que presque rien, que 800 caractères il me semble ...

Voilà le niveau actuel de médiocrité ou des sociétés en sont à porter plainte contre des utilisateurs pour rien du tout, simplement utiliser un formulaire comme il est prévu !

-----------------------

On trouve détranges erreurs avec Yacy est c'est là le gros probleme, bien souvent il n y a aucun moyen de savoir d'ou vient réellement le probleme, là Yacy ne se lance plus, ils tourne à vide on dirait durant des heures et des heures indiquant que ça démarre et dans les logs, ça semble charger plein de truc mais une erreur revient souvent, un probleme de mémoire, j'ai donc mis dans le fichier de lancement les mémoire a 10g (10000m) les deux de java indiqué dans le fichier de lancement mais non, ça ne change rien, windows indique que javaw le programme de yacy prend que dans les 600m comme indiqué par défaut mais que j'ai changé avant de le relancer, donc apparemment yacy ne prend meme pas en compte la mémoire indiqué dans le fichier de lancement !

Et l'erreur indiqué est étrange, puisqu'a chaque fois dans les logs ça indique avoir besoin de quelques mb de mémoire, indique une erreur outofmemory (manque de mémoire), alors que la mémoire indiqué libre sur la même ligne est bien supérieur à la quantité demandée, ici ~13Mb de demandé et 20Mb indiqué de libre... :

net.yacy.cora.util.SpaceExceededException: 13186820 bytes needed for RowCollection grow after OutOfMemoryError Java heap space: 20818168 free

 

Aprés avoir trouvé le probleme, c'est bien la mémoire allouée qui faisait défaut puisque aprés avoir regardé dans la config yacy.conf, tous les paramètres y compris la mémoire étaient revenu à defaut donc pas du tout assez de mémoire, là aussi c'est un probleme, pourquoi tout est revenu aux paramètres par defaut ?!

--------------------

Je l'ai donc relancé et les fonctions de transférer le crawl en partie sur d'autres instances refonctionnaient mais pas pour longtemps, au bout de quelques heures ça s'arrête sans raison, c'était pas du tout encore surchargé et même 24h aprés ça n'avait plus rien transféré, et tout est comme ça avec yacy on ne peut jamais vraiment savoir d'ou ça dysfonctionne et pourquoi. Changer les parametres n'y changent rien du tout.

Autre exemple, les outgoing connexions sont la liste des connexions que yacy utilise pour télécharger, les pages et autres, et donc c'est limité et ça aussi on ne peut le changer dans les parametres, dans la page des connexions, ça s'affiche et ça bloque toujours vers presque 280, moi à 278 en général.

Le probleme est que c'est pas que le téléchargement, quand je charge un sitemap de sitemaps, donc des millions d'urls, en fait ça télécharge bien les sitemaps, ajoute les urls à la liste des fichiers à télécharger mais ça semble rester dans la liste des connexions meme une fois le sitemap téléchargé puisque là avant quel'interface ne réponde plus comme il y a trop de fichiers en meme temps, ça indiquait déjà des dizaines de sitemaps de ce site, donc ça télécharge des dizaines de sitemaps du meme site au lieu de les télécharger progressivement et pire encore on dirait que ça utilise une connexion meme le sitemap chargé, et que ça libere le connexion qu'une fois le sitemap et les urls traitées par yacy, pas étonnant que ça bloque si facilement en effet, le temps que les milliers d'urls soient traités en fait, tout yacy bloque meme l'interface ne répond plus mais les logs fonctionnent, ça indique que ça ajoute des sitemap et crawl quelques urls par ci par là...

Et c'est long, là ca fait plus de 24h que ça ajoute des urls de ce site à crawler et que yacy est bloqué là dessus, pourtant il ne s'agit que dajouter les urls à la liste des urls à crawler, pas de les crawler et traiter !

------------------

C'est un bon exemple de "l'open source" et du libre tant vanté, résultat on a des tonnes de logiciels merdique qui ne fonctionne pas bien du tout, buggés, qui prétendent être libre alors qu'en fait ça ne fonctionne pas bien, c'est difficile à utiliser puisqu'il faut être un programmeur pro pour les utiliser puisqu'il faut bien souvent les compiler soi meme sur la machine qu'on veut utiliser, donc être un expert en programmation, bref, ça fait le contraire de la liberté tellement c'est difficile et compliqué à utiliser, ça fait que c'est réservé aux professionnels de la programmation.

J'ai déjà regardé sur github je cherchais les moteur de recherche comme ça mais je suis tombé sur plein de pages qui ne fonctionnaient pas, certains avaient aucun fichier, étaient pas mise à jours depuis des années et des années, un fatra de logiciels ou de pages de code quasiment inutilisables pour la plupart des gens.

Bref, encore un bon prétexte pour faire tout un tas de truc nuls à chier.

C'est comme avec java, censé  permettre de faire un logiciel qui fonctionne sur toutes les plates formes prévues avec java, évitant de devoir faire plusieurs code sources différents et bien là j'ai installé java et donc malgré que java est installé, yacy ne trouve pas java quand je le lance et se ferme de suite aprés execution du fichier bat quand cest yacy avec le code source comme expliqué plus haut, avec ces logiciels libre ou open source, tout semble prétexte à ce que ça ne fonctionne pas, pourtant meme les indication de java dans le fichier de la source ou de la version avec programme d'installation sont les même donc ça devrait trouver java sans probleme.  

---------------

J'ai depuis quelques semaines relancé yacy pour notemment essayer d'y inclure mes anciennes sauvegardes, mais c'est trés long puisque les fichiers font plusieurs giga et je voulais donc faire une seule sauvegarde finale complete de tout ce que j'avais déjà crawlé mais toujours le meme probleme, au bout de quelques heures, l'interface graphique ne répond plus mais dans les log on voit que ça semble continuer de crawler et importer la sauvegarde puis au bout d'un moment ça ne fonctionne plus pour x raison et on doit redémarrer et là j'ai redemarré hier voulant faire la sauvegarde complete ayant importé toutes mes ancienne sauvegarde, je vois que ça fonctionne et ce matin c'est indiqué que Yacy est en cours d'arrêt... A chaque utilisation il y a un nouveau probleme qui fait que ça bug et rend inutisable le logiciel. 

Quand j'avais réussi de faire une ancienne sauvegarde de la base complete, pour 60millions d'urls environ, il a fallu plus de 48h au total, le fichier de backup augmentait petit à petit trés lentement...

J'ai essayé de le laisser comme ça pour qu'il transfert les résultat de recherche déjà effectués et les crawls à d'autres instances mais étrangement aprés quelques jours, il n'y avait plus qu'indiqué dans les logs que yacy rajoutait des éléments à transférer, que ça, jamais rien d'autre, et en fait il ne transférait jamais apparemment malgré la section de pairs et autre, il n'y avait plus aucun autre résultat dans les logs.

Il n'y a plus que des logs comme ça depuis des jours aucune autre info que selectpeers et extending chunks, jamais de transfer.

"I 2023/12/03 12:10:33 DHT selectPeers/DHTorder: 9fN_dZ-mmZbJ:agent-keheheh-ufe-101/ score 1
I 2023/12/03 12:10:33 DHT selectPeers/DHTorder: 74hVtOE0JEFi:neonknight/ score 3
I 2023/12/03 12:10:33 DHT selectPeers/DHTorder: 8ubDT7ZCQfIa:roeschcc1/ score 2
I 2023/12/03 12:10:33 DHT selectPeers/DHTorder: 9fN_dZ-mmZbJ:agent-keheheh-ufe-101/ score 1
I 2023/12/03 12:10:33 DHT selectPeers/DHTorder: -9GlSgPg3Qtl:domokrada/ score 3
I 2023/12/03 12:10:33 DHT selectPeers/DHTorder: _tmfQ6m1LSdp:eskimo/ score 2
I 2023/12/03 12:10:33 DHT selectPeers/DHTorder: Cy8DBe665-h_:mifritscher/ score 1
I 2023/12/03 12:10:33 INDEX-TRANSFER-DISPATCHER extending chunk for peer -9GlSgPg3Qtl containing 1 references with 1 more entries
I 2023/12/03 12:10:33 INDEX-TRANSFER-DISPATCHER extending chunk for peer _tmfQ6m1LSdp containing 1 references with 1 more entries
I 2023/12/03 12:10:33 INDEX-TRANSFER-DISPATCHER extending chunk for peer Cy8DBe665-h_ containing 1 references with 1 more entries
I 2023/12/03 12:10:33 DHT selectPeers/DHTorder: Cy8DBe665-h_:mifritscher/ score 3
I 2023/12/03 12:10:33 DHT selectPeers/DHTorder: G-v3Dy_vqjBd:mrflibble/ score 2
I 2023/12/03 12:10:33 DHT selectPeers/DHTorder: KMFfar8waSHq:agent-naloneb-ufe-102/ score 1
I 2023/12/03 12:10:33 DHT selectPeers/DHTorder: G-v3Dy_vqjBd:mrflibble/ score 3
I 2023/12/03 12:10:33 DHT selectPeers/DHTorder: KMFfar8waSHq:agent-naloneb-ufe-102/ score 2"


J'ai relancé pour faire une sauvegarde et pareil, au bout de deux trois jours ça indique uniquement too many connexions in httpc pool et rien d'autre depuis au moins 24h, ça sature à chaque fois.

-----------------

J'ai installé la tout derniere version de yacy disponible officielle mais ça ne change rien, j'ai installé sur deux ordi différents et pareil, l'installation marche bien, c'est le probleme avec yacy, tant qu'on ne l'utilise pas mais qu'on se contente de l'installer et rien en fait ça marche trés bien. Le probleme fut quand j'ai voulu charger un dump de sauvegarde, le fichier semble se charger complétement vu la quantité de données transférées dans le repértoire yacy mais la sauvegarde ne se charge pas dans les données de yacy, le nombre d'url est a 0 et dans les logs en redémarrant on voit qu'il y a encore un probleme d'accés, une exception se lève et ça ne fonctionne toujours pas, et le probleme est encore le meme avec yacy, il n'y a pas moyen de savoir quel est réellement le probleme, meme charger une sauvegarde et ça bug sans message d'erreur, ça bug et et leve une exception et plus rien ne marche !

J'ai même essayé avec une installaton totalement vide, ça a correctement chargé le sitemap de plus de 200 000 urls mais je ne sais pas pourquoi elles sont toutes été mises dans les urls à crawler sur d'autres instances et aucune sur la mienne et pire encore, ça ne crawlait rien du tout, dans les logs toutes les urls indiquaient:

"NoticedURL shift from GLOBAL to LOCAL: double occurrence"

Je suis revenu à mon ancienne installation et alors que je pensais laisser pour transférer les résultats sur d'autres pairs maintenant une nouvelle erreur, ça indique -1 pour le port ssl alors que c'est normalement configuré par ailleurs, on me bloque donc le port sécurisé comme ça sans raison.

Ca à fonctionné pendant plusieurs jours sans probleme et ça redéconne, pas de probleme de mémoire, d'espace disque ou autre, rien d'anormal dans les logs mais ça redevient trés lent, rarement on voit quelques urls crawlés, mais on voit dans le prequeuing que c'est trés lent, environ une page traitée par seconde alors que l'ordinateur est pas surchargée, encore une fois impossible de savoir pourqoi ça rame, pourquoi c'est si lent. 

---------------------

Je le laisse pour transférer la DHT sur d'autres pairs mais là aussi ça fini par bloquer, il y a des requetes get solr qui remplissent les connexions à Yacy, de la même IP et si je rajoute des connexions (250 au lieu de 200) ça marche quelques temps et ça sature encore, probleme, certaine connexions datent de quand j'ai lancé yacy il y a une semaine environ, elle ne sont pas supprimées automatiquement pour libérer, autrement dit une requete à yacy est infinie tant qu'elle n'est pas résolue, pas étonnant que ça sature à force !

---------------------


Il y a des sitemaps qui ne se chargent pas sans raison, pour deux sites et j'ai essayé sur un autre ordi avec une nouvelle installation de yacy sans aucun autre site, le problème est le même, le site map se charge dans yacy (on voit la commande get du sitemap) ça indique le site dans la liste des crawls et puis au bout d'un moment ça indique le crawl fini mais aucune page du site n'a été chargée, pourtant quand j'essaye avec le crawl normal du site, les pages sont chargées par Yacy et le site crawlé normalement, mais là passer par le sitemap et on dirait que ça fait comme si le sitemap était vide mais bien sur aucun message d'erreur particulier donc on ne sait pas pourquoi ça ne fonctionne pas.

---------------------

J'ai eu le probleme avec le fait que des pages peuvent etre crawlées par d'autres instances de yacy si on active l'option, le probleme est qu'on ne sait pas en fonction de quoi les pages sont crawlées par d'autres, souvent ça marche qu'avec les sitemaps et de plus, il y a indiqué le nombre de pages en attente de crawl sur d'autres instances, probleme, j'ai déjà eu le coup ou bien sur aucune page n'est crawlée en une journée, donc c'est en attente et si il n'y a pas de pages crawlées sur d'autres instances, aucun moyen de les remettre dans la file de l'instance locale.

---------------------

J'ai installé la toute derniere version pour tester et bien sur, premier probleme la sauvegarde ou dump de la base de donnée n'est pas importable n'étant pas la même version, et autre probleme que j'ai à chaque fois, au bout d'une journée environ, ça m'indique dans les logs qu'il y a un probleme pour inscrire l'index ou le hash de l'url dans la base de donnée, donc à partir d'un moment les urls sauvées ne sont plus  enregistrées dans la base et même pour un probleme si important aucun message d'erreur à part dans les logs, en apparence tout va bien et en fait les urls ne sont plus sauvées correctement et enregistrées dans l'index !

 ----------------------

Autre exemple de contradiction avec Yacy, ça fonctionne avec Java censé faciliter le déploiment sur d'autres plates formes, on programme en java et donc le logiciel est normalement utilisable sur toute plateforme compatible Java (linux, windows, etc). 

Probleme, là la derniere version windows date de 2020 et il y a d'autres packages pour les autres plates formes, qui sont plus récentes et bien sur la derniere version de développement n'a pas de programme d'installation alors ça ne fonctionne pas en réalité.

Pourquoi donc font ils ça, prétendre que c'est facile à installer et utiliser alors qu'il faut installer, que le programme est différent suivant les systeme alors que Java est censé éviter ça, le programme beta ne fonctionne pas parce qu'il n'y a pas de programme d'installation intégré, en plus les versions suivant les systeme d'exploitation sont différentes, pourquoi compliquer comme ça ?

Le programme ne semble pas détecter automatiquement si Java est déjà installé sur le systeme.

----------------------

Un des problemes est pour mettre à jour régulièrement les pages, par exemple j'ai essayé sur des sites publiant des articles tous les jours de les crawler avec une limite de 100 pages par jour maximum, ou meme de 10 toutes les quelques heures mais ça ne marche pas, au bout de plusieurs jours alors que l'on voit que l'action de crawler à été executée plusieurs fois, je n'ai toujours qu'une page du site dans l'index (?!), ou encore avec 100 pages, le crawl ne s'arrête pas donc le lendemain au bout de 24h la commande ne se relance pas étant déjà en train d'être executée, résultat depuis presque une semaine alors que c'est un site ayant des centaines de liens sur la homepage (agrégateur de nouvelles), je n'ai toujours qu'a peine plus de 100 pages crawlées...

----------------------

Autre exemple des graves bugs de Yacy, quand on programme un nouveau crawl de site, il y a des parametres à indiquer et des options et je me suis aperçu que mettre un depth au dessus de 8 ne sert à rien puisque de toute façon quand le crawl est lancé il y a un tableau des crawls en cours avec les parametres du crawl et c'est bien 8 qui est indiqué alors que je regarde encore dans la liste des actions enregistrées qui rouvre la page de config et là pourtant c'est bien par exemple 99 de depth qui est enregistré, de meme que il y a un parametre en dessous de depth illimité pour tel ou tel site (une expression régulière) et là aussi dans le tableau en cours d'execution c'est à chaque fois vide pourtant dans la page de config l'expression régulière est bien enregistrée...

----------------------

Yacy fonctionnait pas mal depuis plusieurs jours (ceux qui piratent yacy à distance étaient ils en vacances ?), mais là ça a recommencé, toujours de nouvelles erreurs, là j'ai lancé l'optimisation de la base lucène et ça a merdé bien évidemment, avec plusieurs dizaines de giga de libre sur le ssd, ça indiquait qu'il y avait des erreurs d'écriture, plus assez de place, etc j'ai du redémarrer, et là aprés des heures de démarrage (ça prend des heures à lire les index des blob des données, j'ai 800go environ et 80millions d'urls), ça s'est mis à indiquer tous le temps durant des heures en permanence des erreur de caractere html, j'ai encore du redémarrer et ça n'a pas fonctionné ça a bloqué pendant un jour avant que je redémarre (là ça redémarre), sur une ligne indiquant que ça lisait les crawl en cours et ça a bloqué donc là... 

Ca marchait bien sans probleme durant des jours et là ça ne marche plus depuis des jours, on dirait qu'ils font une sorte d'équivalence de temps qui marche et ne marche pas !

 -----------------

J'ai fini par redémarrer le lendemain c'était toujours bloqué sur cette ligne ou ça indique indexer un des fichiers de la base de donner divisé en 2go environ chacuns...

Je redémarre, ça démarre rapidement, en quelques dizaines de minutes et probleme au bout de quelques temps d'utilisation sans probleme, ça bloque au bout de meme pas quelques heures sur une ligne (dans le log ou dans la console débug), qui est celle indiquait indexer tel ou telle page ...

La j'ai redémarré depuis quelques heures et ça refait pareil, ça bloque sur le chargement dans les fichiers blob de 2go.

Comme on ne peut pas transférer la base sur une nouvelle installation plus récente à cause du changement de version de la base lucene, j'ai essayé une nouvelle installation mais là aussi dés qu'on commence de l'utiliser ça se met à sérieusement déconner, les crawls étaient indiqués quelques secondes et disparaissaient, le lendemain, j'ai laissé la nuit et apparemment ça chargeait les files d'attentes de quelques millions d'urls. 

Donc en attendant que yacy mette des heures à charger quelques millions d'urls (les fichiers textes de urls à charger pas charger les pages elles meme depuis internet) on ne peut plus rien faire non plus.

Et ça redéconne bien sur, là le transfert de l'index sur les autres pairs ne se fait plus, dans la console début ça indiquait à chaque fois que le chunk était trop grand : 33 ...

Donc pour l'instant ça fait plus d'une semaine que je démarre et redémarre l'autre installation de yacy avec 80 millions d'urls crawlées et ça ne marche pas, donc c'est encore "perdu"! 

Même donc la version la plus récente de linux est buggée comme ça, temps de chargement extrémement longs, bugs étrange bloqué sur 33, etc ! 

-------------

Le lendemain ça n'a toujours pas rechargé, ça a bloqué encore sur un des fichiers blob, il y en a beaucoup, la plupart passent sans probleme, ils sont tous environ de 2go et certains durent longtemps à traiter et d'autre ça bloque indéfiniment, sans aucune indication .

Deux heures que c'est bloqué maintenant sur une nouvelle erreur, ça indique deux fois de suite qu'un fichier blob est illisible et qu'il est supprimé, deux fois de suite le meme message exactement sur le meme fichier et depuis deux heure que c'est affiché sur la console de débug, plus rien...

 

Les sites qui ne fonctionne pas exprès avec Yacy 

Cette liste de site contient des sites qui ont fonctionnés avec yacy mais qui ont cessé de permettre à Yacy de les crawler, j'ai bien sur essayé plusieurs fois en plusieurs semaines ou mois d'intervalle de les crawler, mais ils font exprés de ne pas permettre à yacy de les crawler sans raison, la page ne renvoie rien alors que le site fonctionne quand même trés bien sur navigateur classique. 

J'ai encore certains de ces sites avec des urls dans la base de données des sites crawlés de yacy mais ils ne fonctionnent plus donc avec yacy maintenant. Je ne sais pas ou est le blocage, du propriétaire, de l'hebergeur, etc.

Beaucoup sont des petits sites ou dits alternatifs, certains banni des grand sites comme youtube mais qui se permettent comme brighteon de bannir les crawler p2p non censurables comme Yacy, tout en se plaignant d'être censuré de partout quand il s'agit de faire leur promotion pour récolter des dons (voir ma page d'articles taggé alternatifs pour plus d'infos: https://abus-commerce.blogspot.com/search/label/Alternatif ).

- BitChute

- Brighteon

- ArianeBilheran

- Artivision

- Agoravox

- Fawkes-news

- Wikiwix (Archivage) 

- 4chan

- Archive.is

- www.newstarget.com : Ce sont les sites du groupe naturalnews qui se targue de liberté mais ne permettent meme pas à un moteur decentralisé non censurable de crawler leurs sites, ils ont plein de sites thématiques en .news que là aussi, j'ai pu crawler au début mais maintenant Yacy est bloqué. Il y en a sur la page https://www.naturalnews.com/ : https://www.food.news/ ; https://www.censoredscience.com/ ; https://www.health.news/ ; https://www.cancer.news/ ... 

[ Mise à jour: des mois aprés avoir écrit ça, j'ai vu que ça remarchait mais pareil au bout de quelques jours de crawl ils ont bloqué apparemment puisque pour yacy ça renvoyait rien du tout et sur le même ordinateur ça ouvrait dans un browser classique la page du site newtarget sans probleme, ils recommencent donc de faire exprés que ça en fonctionne pas avec yacy... voilà à quoi s'occupent ces alternatifs !]

- dailymotion

- altcensored.com

- abovetopsecret.com

- beforeitsnews.com

- sott.net

- worldtruth.tv

- reporterre.net

- brandnewtube.com

- Youtube / Dailymotion : Durant des mois ça fonctionnait bien, mais ils ont changé leur site pour que le navigateur qui n'a pas javascript ne puisse rien voir du site

- framatube.org : Et les sites utilisant framatube comme logiciel de site, n'a jamais fonctionné malgré prétendant être alternatif, il faut un navigateur moderne des grosses société pour l'utiliser 

- https://alternativeto.net/

- http://www.archive.org/ Ce fameux site prétentieux qui prétend archiver internet pour que ça reste accessible est en réalité un leurre, récemment ils ont empêché yacy de crawler leur site, plus rien ne s'affiche avec yacy a part le titre ... En réalité ils rendent inacessible internet.

- https://oldergeeks.com/ Ce petit site marchait bien, et je me suis aperçu que là aussi yacy a été bloqué, j'ai encore des milliers de pages du site mais maintenant c'est bloqué, la page renvoyée à yacy est vide. 

- Reddit : le célèbre site de forum à en effet peu aprés que j'ai commencer de crawler le site avec les sitemaps du site donc fait pour ça ont simplement supprimé leurs sitemaps, et oui, ils font vu que je crawlais avec yacy et les sitesmaps meme des mois aprés étaient toujours supprimés, ça indiquait une erreur comme si les sitemaps n'existaient pas ! La prochaine étape est de supprimer les forums du site peut être ?!

Aucun commentaire:

Enregistrer un commentaire