Vrai ou faux bot ? | performance

Le nombre de robots qui balayent le web est très élevé, mais beaucoup d’entre eux (beaucoup trop ?) sont plus ou moins anonymes car non référencés par un nom DNS valide, un domaine connu est néanmoins une certaine sécurité.
Un grand nombre de ces « bots » présentent en User-Agent connu mais ont des adresses neutres du style « NON-RIPE-NCC-MANAGED-ADDRESS-BLOCK » ou « ...amazonaws... » ce qui ne rend pas l’identification réelle de ces bots facile.
Tous les robots de Google ont un nom DNS correct, il en est de même pour ceux de MSN, de Qwant et de quelques autres moins connus. Certains scanners utilisés par des universités présentent eux aussi des noms DNS faciles à interpréter.
Pourquoi tous les bots n’ont-ils pas un reverse DNS correct et correspondant à la description du User Agent ?
Est-ce de la paresse, une simple facilité, ou bien encore pour ne pas montrer (cacher ?) que ce bot n’est pas utilisé par celui qui est désigné par le User agent et qu’il est en fait un moyen « discret » de faire l’inventaire d’un site et de rechercher les détails sur :

les logiciels utilisés,
leurs versions,
les extensions installées
....

et pouvoir ensuite tenter une attaque ciblée avec plus de chances de succès ?

J’ai décidé de « bloquer » par le pare-feu tous les bots repérés et qui n’ont pas un nom DNS (tel que retourné par « nslookup ») appartenant à une entité connue et correspondant au User agent utilisé, j’espère que d’autres sites suivront ...

Note 2024 : j'ai remarqué que beaucoup de ces "bots" ont une user agent contenant "GPTBOT" et "openai' et proviennent des réseaux contrôlés par Microsoft. On peut penser que les programme d'IA cherchent "discrètement" des données sur Internet pour enrichir leurs modèles.

Version imprimable