Recherche dans le Web profond

Il n'y a pas que Google dans la vie...

Sans aucune prétention d'exhaustivité, je vous propose quelques très efficaces liens vers des moteurs et outils de recherche alternatifs.

Si Google ne trouve pas ce que vous cherchez, si les forums sont vides de réponses, pas de panique : il y a toujours des solutions de secours.

Pour effectuer une recherche "alternative", donc, ou plutôt "en profondeur", nous allons nous tourner vers des outils qui iront piocher leurs informations dans des zones de l'Internet que Google indexe mal ou pas du tout.

Ce que l'on nomme le "deep web" représente en effet toute la partie immergée de l'iceberg, la partie invisible du Web et du Net, qui représente ,tout comme son analogue, environ... 90% !

Evidemment il est impossible de savoir réellement ce que Google n'indexe pas, mais il est évident, pour des raisons techniques, que le bras armé de l'entreprise la plus puissante du monde ne fait qu'effleurer la surface des choses.

En effet, Google ne va pas au-delà des mots de passe de sites protégés, ne rentre pas dans les répertoires FTP, n'indexe pas le contenu généré par les web apps, encore moins les bases de données des universités, ni les fichiers financiers des entreprises côtées en bourse, etc.

Ne parlons même pas des gigantesques et labyrinthiques Intranet, les serveurs d'emails publics et autres dépôts de binaires NNTP...

Bref, pour tenter d'accéder à cette immense portion d'un Internet public mais difficilement accessible, Google ne sert à rien.

Et bien évidemment, Google et ses concurrents ne savent que proposer les résultats les plus demandés par les autres personnes, et ne se préoccuppent ni des résultats plus confidentiels ni d'essayer de comprendre ce que recherche l'internaute.

L'inévitable

Quand on recherche des informations concernant la connaissance, la culture, les sciences, l'histoire, etc, un réflexe commun est d'aller voir sur Wikipedia.

C'est bien, mais c'est parfois imprécis, et ne couvre pas certains domaines.

WOLFRAM ALPHA

Je ne vais pas me lancer dans une éloge de Steven Wolfram, mais juste préciser que c'est une de mes idoles de l'ère moderne.

Cet homme a déjà crée plusieurs petites révolutions, par exemple Mathematica.

Mais son oeuvre essentielle, en tout cas celle qui nous touche directement, c'est Wolfram Alpha.

WolframAlpha est un service internet qui répond directement à la saisie de questions factuelles en anglais par le calcul de la réponse, au lieu de procurer une liste de documents ou de pages web pouvant contenir la réponse.

C'est simple : posez une question en anglais, et si la réponse est calculable, ou peut être assemblée à partir de données factuelles, alors Wolfram Alpha la trouvera et la formulera de manière compréhensible.

Rien que ça !

Essayez, c'est étonnant. En fait, c'est GÉNIAL.

Exemples :

compare the Paris and London population

distance of planets from earth

what are the largest city populations

flights over new york now

Extension

Au lieu d'aller directement sur le site web de WolframAlpha, on peut utiliser cette pratique extension pour Chrome.

Terminal

On peut aussi faire une recherche en ligne de commande avec cet outil.

Siri

Si votre iPhone est configuré en langue anglaise, alors vous profiterez de Wolfram Alpha dans Siri sans rien avoir à faire de particulier.

GALLICA

Méconnu, le site de la Bibliothèque Nationale de France est un trésor pour qui effectue des recherches dans les oeuvres littéraires de toutes époques.

En effet, un énorme travail de numérisation et d'archivage a été effectué (et continue), et est accessible par le web.

Non seulement pour accéder au contenu textuel, qui est déjà incroyablement énorme, mais aussi au contenu pictural (gravures, illustrations) contenu dans les livres anciens.

Par exemple, une recherche sur bal de la ville de Paris nous donne :

IXQUICK

Ixquick est un moteur de recherche confidentiel (qui ne conserve pas votre IP ni vos recherches), qui se vante d'être plus puissant et plus précis que Google.

Même si cette performance reste à prouver, il est évident ques les résultats fournis par Ixquick sont souvent pertinents.

Duck Duck Go

Déjà bien connu, Duck Duck Go est également respectueux de votre vie privée.

Il propose aussi des résultats souvent plus orientés "culture" que Google, même s'il ne va pas forcément les chercher plus loin. C'est déjà bien pratique.

Surtout, le moteur se vante d'être totalement anonymisé, et donc permet de faire des recherches sensibles sans être enregistré par Google et ses grandes oreilles.

Il y a aussi une extension disponible.

VLIB

La VLIB, autrement dit la Virtual Library, est un projet créé par Tim Berners-Lee, l'inventeur même du Web.

C'est un projet qui essaie d'archiver un grand nombre de résultats de recherche et de documents librement ou légalement accessibles.

Projet contributif, c'est une excellente et puissante alternative à Wikipedia, mais qui demande un peu plus de patience, n'étant pas forcément bien filtrée ni organisée.

INFOMINE

Dans le même genre, mais initié par la Bibliothèque de l'Université de Californie, InfoMine permet de faire des recherches dans des documents n'étant pas indexés par les moteurs de recherche classiques.

De nombreux domaines sont accessibles : médical, business, gouvernemental, géographie, arts, etc.

BASE

Toujours dans le même domaine : BASE essaie d'indexer les bases de données des bibliothèques en accès public.

Toutes les bibliothèques... ce sont là des tonnes d'information que Google ignore complètement.

SCIRUS

Moteur de recherche de documents scientifiques, Scirus permet par exemple d'effectuer des fouilles dans les brevets américains, les publications scientifiques pas encore officiellement publiées, la presse universitaire, etc.

TECHXTRA

Dernier représentant du genre, TechXtra, sous ses airs has-been, permet en fait de faire des recherches parmi toutes les publications étudiantes du domaine public : thèses, essais, doctorats, etc.

TINEYE

Peu connue, la fonction de recherche d'images par le contenu de Google est relativement efficace : on upload une image, et le moteur essaie de trouver toutes les images identiques ou similaires.

Dans le même genre mais avec une base de données différente, il y a donc TinEye, avec des fonctions originales, comme par exemple la recherche d'images par couleur, etc.

YASNI

Yasni permet de rechercher des informations sur des personnes.

C'est assez troublant...

Pour peu que vous ayez une existence un tant soit peu publique sur le Web depuis quelques années, ce site web va vous faire souffrir.

QWANT

Initiative française, Qwant se veut être un moteur plus global que Google.

De mon expérience, c'est surtout un moteur pratique pour explorer l'actualité ou les évènements rapportés publiquement en certains endroits ou certaines périodes.

Exemple :

CNRS

Entre autres sites permettant d'accèder aux documents institutionnels, celui du CNRS est un des plus pertinents.

Exemple :

BLEKKO

Blekko est un moteur permettant d'obtenir des réponses filtrées et sélectionnées.

Si vous n'avez pas le temps de comparer et trier les résultats des principaux moteurs de recherche, alors essayez ce site.

C'est un peu trop axé sur les données mainstream mais ça marche plutôt bien.

CREATIVE COMMONS

Vous recherchez du contenu utilisable librement, que ce soient des images, des logos, du texte ou des photos ?

Essayez ce site de méta-recherche de documents sous licence Creative Commons.

PIXSY

Pixsy est un méta-moteur de recherche utilisable avec des raccourcis clavier.

Pixsy utilise, selon vos critères, des résultats provenant de plusieurs dizaines de sites, dont Amazon, Wikipedia, etc.

C'est en quelque sorte un point central pour qui aurait besoin d'effectuer des recherches nombreuses parmi un grand éventail de contextes.

SEEKS

Plus anecdotique, Seeks est un moteur de recherche décentralisé contributif.

Les volontaires installent la version serveur de Seeks sur leurs équipements et participent à l'indexage du Web.

La page de recherche de Seeks utilise alors ces résultats pour vous proposer des réponses à votre recherche.

Non-Web

Il existe également, mais cela mériterait un autre article, tout ce qui n'appartient pas au Web mais qui est tout le reste de l'Internet.

Les millions de posts sur les forums de discussion publics non censurés dits Newsgroups (protocole NNTP), les bases de données financières, météorologiques et autres Big Data, etc.

Le Web est incroyablement immense, mais l'Internet est immensément plus grand encore !