La recherche Google sur les stéroïdes met en lumière le Web sombre

L'agence gouvernementale qui nous a apporté Internet a maintenant développé un nouveau moteur de recherche puissant qui met en lumière le contenu du soi-disant Web profond. 

La Defense Advanced Research Projects Agency (DARPA) a commencé à travailler sur le moteur de recherche Memex Deep Web il y a un an et a dévoilé cette semaine ses outils à Scientific American et «60 Minutes». 

Memex, qui est développé par 17 équipes de sous-traitants différentes, vise à créer une meilleure carte du contenu Internet et à découvrir des modèles dans les données en ligne qui pourraient aider les agents des forces de l'ordre et autres. Alors que les premiers essais se sont concentrés sur la cartographie des mouvements des trafiquants d'êtres humains, la technologie pourrait un jour être appliquée aux efforts d'enquête tels que la lutte contre le terrorisme, les personnes disparues, la lutte contre les maladies et les secours en cas de catastrophe.

Dan Kaufman, directeur du bureau d'innovation de l'information à la DARPA, dit que Memex consiste à rendre l'invisible vu. "Internet est beaucoup, beaucoup plus grand que les gens ne le pensent", a déclaré Chris White, responsable du programme DARPA, à "60 Minutes". "Selon certaines estimations, Google, Microsoft Bing et Yahoo ne nous donnent accès qu'à environ 5% du contenu sur le Web."

Google et Bing produisent des résultats basés sur la popularité et le classement, mais Memex recherche le contenu généralement ignoré par les moteurs de recherche commerciaux, tels que les données non structurées, le contenu non lié, les pages temporaires qui sont supprimées avant que les moteurs de recherche commerciaux puissent les explorer et les forums de discussion. Les moteurs de recherche habituels ignorent ces données Web profondes parce que les annonceurs Web - là où les sociétés de navigation font leur argent - n'y sont pas intéressés.

Memex automatise également le mécanisme d'exploration du Web sombre, ou anonyme, où les criminels font des affaires. Ces pages de services cachés, accessibles uniquement via le navigateur anonyme TOR, fonctionnent généralement sous le radar des forces de l'ordre vendant des drogues illicites et d'autres produits de contrebande. Alors que l'on pensait autrefois que l'activité Web sombre se composait d'environ 1000 pages, White a déclaré à Scientific American qu'il pourrait y avoir entre 30 000 et 40 000 pages Web sombres.

Jusqu'à présent, il était difficile d'examiner ces sites de manière systémique. Mais Memex - que Manhattan DA Cyrus Vance Jr. appelle "recherche Google sur les stéroïdes" - non seulement indexe leur contenu, mais l'analyse pour découvrir des relations cachées qui pourraient être utiles aux forces de l'ordre.

L'année dernière, les outils de recherche de la DARPA ont été introduits pour certaines agences d'application de la loi, y compris la nouvelle unité de réponse à la traite des êtres humains de Manhattan. Memex est maintenant utilisé dans toutes les affaires de traite des êtres humains qu'il poursuit et a joué un rôle dans la création d'au moins 20 enquêtes sur la traite sexuelle. Le robot d'exploration Web suralimenté peut identifier les relations entre différents éléments de données et produit des cartes de données qui aident les enquêteurs à détecter des modèles.

Dans une démonstration de «60 minutes», White a montré comment Memex est capable de suivre les mouvements des trafiquants sur la base de données liées aux publicités en ligne pour le sexe. "Parfois, c'est une fonction de l'adresse IP, mais parfois c'est une fonction d'un numéro de téléphone ou d'une adresse dans l'annonce ou de la géolocalisation d'un appareil qui a publié l'annonce", a déclaré White. "Il y a parfois d'autres artefacts qui contribuent à la localisation."

White a souligné que Memex ne recourait pas au piratage pour récupérer des informations. "Si quelque chose est protégé par mot de passe, ce n'est pas un contenu public et Memex ne le recherche pas", a-t-il déclaré à Scientific American. "Nous ne voulions pas brouiller inutilement ce travail en faisant glisser le spectre de l'espionnage et de la surveillance" - un sujet délicat après les révélations d'Edward Snowden à la NSA.

Memex tire son nom (une combinaison de «mémoire» et «d'index») et son inspiration d'un dispositif hypothétique décrit par Vannevar Bush en 1945 qui présageait l'invention des PC, d'Internet et d'autres avancées informatiques majeures des 70 prochaines années. Maintenant, DARPA et Memex semblent prêts à nous rapprocher du service de police futuriste de Philip Dick décrit dans "Minority Report".

Une nouvelle série de tests, qui devrait commencer dans quelques semaines, inclura des procureurs fédéraux et de district, des forces de l'ordre régionales et nationales et de nombreuses ONG. Selon le rapport Scientific American, il vise à "tester de nouvelles capacités de recherche d'images capables d'analyser des photos même lorsque des parties susceptibles d'aider les enquêteurs - y compris les visages des trafiquants ou un écran de télévision en arrière-plan - sont obscurcies".

En inventant de meilleures façons d'interagir et de présenter les informations recueillies à partir d'un plus grand nombre de sources, "nous voulons améliorer la recherche pour tout le monde. La facilité d'utilisation pour les non-programmeurs est essentielle", a déclaré White.