Watson Wannabes: 4 projets open source pour l'intelligence artificielle

Au cours de l'année dernière, dans le cadre des nouveaux services d'entreprise qu'IBM a poussé à sa réinvention, Watson est devenu moins un gadget gagnant "Jeopardy" et plus un outil. Il reste également la création propriétaire d'IBM.

Quelles sont alors les chances de créer un système d'apprentissage automatique en langage naturel de l'ordre de Watson, bien qu'avec des composants open source? Dans une certaine mesure, cela s'est déjà produit - en partie parce que Watson lui-même a été construit au-dessus du travail open source existant, et que d'autres ont développé des systèmes similaires en parallèle de Watson. Voici un aperçu de quatre de ces projets.

DARPA DeepDive

La plus grande marque du groupe, le projet DeepDive de DARPA n'est pas destiné à imiter le système de requête en langage clair de Watson, mais plutôt la capacité de Watson à améliorer sa prise de décision au fil du temps avec des conseils humains.

Développé principalement par Christopher Re, professeur à l'Université du Wisconsin, le projet est open source (Apache 2.0). Selon EE Times, l'objectif principal de DeepDive est de créer un système automatisé pour classer les données non structurées - dans un cas d'exemple, classer les articles dans des revues techniques. Ceux qui envisagent d'utiliser DeepDive doivent être familiarisés avec SQL et Python, mais le système est déjà capable d'extraire des données à partir d'une grande variété de sources conventionnelles, telles que des pages Web ou des documents PDF.

Apache UIMA

La gestion des informations non structurées (UIMA) est une norme permettant d'effectuer des analyses sur du contenu textuel. Watson a utilisé une implémentation d'UIMA, mais vous n'avez pas besoin de passer par Watson pour utiliser UIMA. En fait, l'architecture UIMA d'IBM était open-source et est maintenue par la Fondation Apache. Il prend en charge plusieurs langages de programmation, avec des mises à jour ajoutées périodiquement (le plus récemment en octobre 2014).

Apache UIMA tel qu'il se présente est loin d'être une solution complète d'apprentissage automatique; ce n'est qu'une partie - quoique importante - de l'ensemble créé par IBM. Si vous ne voulez pas utiliser le strict minimum, vous pouvez choisir l'un de ses projets dérivés, comme YodaQA, qui utilise UIMA pour son traitement et utilise Wikipédia comme source de données principale.

OpenCog

OpenCog "vise à fournir aux chercheurs et aux développeurs de logiciels une plate-forme commune pour créer et partager des programmes d'intelligence artificielle." Open-sourced sous licence GNU Affero, l'ambition du projet est d'alimenter rien de moins que ce que ses créateurs appellent des systèmes "généralement intelligents", une intelligence artificielle qui a une compréhension large et humaine du monde au lieu de spécialités centrées sur le domaine (comme être très bon aux échecs mais rien d'autre).

Les créateurs d'OpenCog affirment que leur cadre est déjà utilisé dans «des applications en langage naturel, à la fois pour la recherche et par des sociétés commerciales». Cela le met un peu plus loin des concepts d'IA pie-in-the-sky et plus proche du domaine pratique des questions-réponses habité par Watson.

OAQA (Progression ouverte des systèmes de réponse aux questions)

Comme son nom l'indique, la mission de l'OAQA est "l'avancement ouvert dans l'ingénierie des systèmes de réponse aux questions - des systèmes logiciels de langage qui fournissent des réponses directes aux questions posées en langage naturel." Cela ressemble à l'un des objectifs de Watson? Ouais, d'autant plus que l'OAQA a été initiée conjointement par IBM et l'Université Carnegie Mellon. Comme Apache UIMA, OAQA implémente le framework UIMA, mais ne le considérez pas comme une solution prête à l'emploi; c'est une boîte à outils.

Le seul inconvénient majeur de chaque projet, comme vous pouvez le deviner, est qu'ils ne sont pas proposés dans un package presque aussi raffiné ou raffiné que Watson. Alors que Watson est conçu pour être utilisé immédiatement dans un contexte commercial, ce sont des boîtes à outils brutes qui nécessitent de lourdes charges.

De plus, les services de Watson ont déjà été pré-formés avec un ensemble de données du monde réel. Avec ces systèmes, vous devrez fournir les sources de données, ce qui peut s'avérer être un projet beaucoup plus important que la programmation elle-même.