Project Oxford: Microsoft propose des API pour les applications intelligentes

Au printemps dernier, Microsoft a annoncé Project Oxford, un ensemble de SDK et d'API permettant aux développeurs de créer des applications «intelligentes» sans avoir à apprendre l'apprentissage automatique. En utilisant les API d'Oxford pour le visage, la parole et la vision, les développeurs peuvent créer des applications qui reconnaissent les traits du visage, analysent des images ou effectuent des traductions de parole en texte ou de texte en parole.

Dans une interview avec le rédacteur en chef Paul Krill, Ryan Galgon de Microsoft, directeur de programme principal responsable de la plate-forme et des technologies Project Oxford, a parlé des objectifs derrière Oxford, en soulignant son potentiel dans l'Internet des objets.

: Qui crée des applications Oxford? À qui s'adresse Oxford?

Galgon: Nous avons eu beaucoup de personnes qui se sont inscrites aux services d'API. Les chiffres exacts [ne sont pas] quelque chose dans lequel je peux entrer, mais nous avons créé de nombreux comptes Azure, de nombreuses inscriptions via notre marché Microsoft Azure. Les gens donnent des coups de pied pour les services, ainsi que pour faire un plus grand usage des services. À l'heure actuelle, ils sont tous proposés en tant que niveau gratuit limité sur une base mensuelle, et nous travaillons à ouvrir cela au fur et à mesure que nous avons reçu des commentaires sur les changements que les développeurs veulent voir apportés aux API et aux modèles.

Tout est multiplateforme, en ce sens qu'il s'agit d'un ensemble de services Web auxquels on accède principalement via une interface API REST. Tout ce qui peut contacter un site Web peut appeler ces services back-end. Nous fournissons un ensemble de SDK, qui encapsulent ces appels REST et les rendent plus faciles à utiliser sur des clients comme Android, Windows et iOS. Tout ce qui peut effectuer un appel Web HTTP peut appeler les services.

: Pensez-vous qu'Oxford soit principalement utilisé sur des appareils mobiles ou sur des ordinateurs de bureau Windows?

Galgon:  Ce sera principalement un mélange d'appareils probablement mobiles et IoT. En ce sens que lorsque les gens utilisent des ordinateurs de bureau, la grande majorité des utilisations que je vois, vous êtes assis là, vous avez le clavier et la souris et ce type d'entrée. Mais lorsque vous avez un téléphone portable, vous capturez des photos, des vidéos et de l'audio. C'est tellement plus facile et naturel de capturer cela avec un petit appareil. [La technologie du projet Oxford sera utilisée] où le cas d'entrée dominant sera une donnée naturelle, non seulement des nombres mais une sorte de type de données visuelles ou audio.

: Dites-nous en plus sur ces API. Que peuvent faire les développeurs?

Galgon: Parce que nous voulons atteindre autant de développeurs que possible, nous avons vraiment travaillé dur pour les rendre très faciles à utiliser, [pour] des choses comme la détection de visage ou la vision par ordinateur, la catégorisation d'images. Ces choses sont formées et modélisées, construites par des personnes ayant des années d'expérience en recherche approfondie dans ces endroits et nous ne voulons pas que les développeurs aient à devenir des experts en vision par ordinateur. Nous avons vraiment essayé de dire: «Écoutez, nous allons créer le meilleur modèle que nous pouvons construire et le mettre à votre disposition et le rendre accessible en trois lignes de code pour vous.»

Je ne peux pas parler de la façon dont les partenaires externes envisagent d'utiliser les API d'Oxford, mais les principaux sur lesquels Microsoft a travaillé, que vous avez peut-être vus, le premier était le site How-old.net pour prédire les âges et les sexes. Ensuite, nous avons eu TwinsorNot.net, et qui a reçu deux photos, à quel point ces personnes sont-elles similaires? Ce sont deux bons exemples des API Face. Le dernier, qui utilisait l'API Face et certaines API Speech, était un projet Windows 10 IoT sur lequel quelques articles de blog ont été écrits sur l'endroit où vous pouviez déverrouiller une porte avec votre visage et converser avec la porte - ou la serrure, dans ce cas. Je pense que ce sont trois exemples sur lesquels Microsoft a travaillé pour vous montrer un type d'application qui peut être créé et partagé avec d'autres personnes.

: Dans le cadre de ces API REST, qu'est-ce qui motive Oxford?

Galgon: Le noyau est constitué de modèles appris par machine que nous avons construits pour des choses comme la synthèse vocale. Que vous y accédiez via une API REST - ou avec la parole en texte, vous pouvez également y accéder via une connexion Web socket - la magie ou le puissant il y a ce modèle qui peut prendre l'audio d'une personne parlant et d'une langue que c'est dans et traduisez cela en format texte. C'est ce qui fait que Oxford fonctionne dans son ensemble.

: Pourquoi le projet Oxford est-il distinct du projet Azure Machine Learning?

Galgon:  dans Azure Machine Learning, l'un des principaux composants est Azure Machine Learning Studio, où les utilisateurs peuvent entrer avec leurs données, créer une expérience, former leur propre modèle, puis héberger ce modèle. Avec Oxford, il s'agit d'un modèle prédéfini dont dispose Microsoft, un modèle que nous allons continuer à améliorer à l'avenir et nous laissons les gens utiliser ce modèle sur ces interfaces REST.

: Quel type d'utilisation commerciale d'entreprise voyez-vous pour Project Oxford? Quelle est l'analyse de rentabilisation des applications Oxford?

Galgon:Il n'y a pas de partenaires spécifiques dont je puisse vraiment parler pour le moment, mais je pense que l'un des cas qui nous intéresse beaucoup, où je vois personnellement beaucoup de cas d'utilisation, est celui de l'Internet des objets. des appareils connectés. Quand je regarde la façon dont les gens regardent la construction d'appareils IoT, vous n'avez pas de clavier et de souris et souvent même un vrai moniteur associé à tous ces appareils, mais il est facile de coller un microphone là-dessus et c'est assez facile pour y coller un appareil photo également. Si vous combinez quelque chose comme les API vocales et LUIS (Language Understanding Intelligent Service), alors un appareil qui n'a qu'un microphone et aucun autre moyen d'entrée, vous pouvez maintenant lui parler, lui dire ce que vous voulez faire, le traduire en un ensemble d'actions structurées et utilisez-les dans le back-end.C'est là que je pense que nous allons voir de nombreux cas d'utilisation des API d'Oxford.

: Vous avez mentionné iOS et Android. Quelle a été l'adoption de ces plateformes?

Galgon: En rendant les API RESTful et en leur fournissant ces wrappers, nous avons certainement vu des gens télécharger ces wrappers, les utiliser. Mais à la fin de la journée, il se trouve que «Voici un wrapper de langage Java autour d'un appelant Web», «Voici un wrapper Objective-C autour d'un appel Web.» Nous n'avons pas beaucoup d'informations sur quel est l'appareil exact qui passe l'appel.

: Oxford sera-t-il open source?

Galgon: Nous ne prévoyons pas d'ouvrir les modèles de base, et je n'ai rien à partager à ce sujet car nous continuons à mettre à jour les modèles au fil du temps. Les SDK que nous fournissons, puisqu'ils enveloppent ces appels REST, ce code source est là et peut être téléchargé pour n'importe qui aujourd'hui à partir du site Web. Mais encore une fois, c'est un wrapper caché sur les choses et nous avons en fait vu des gens dans les forums MSDN qui ont fourni des extraits de code dans différentes langues autour de lui.

: Comment Microsoft envisage-t-il de gagner de l'argent avec Oxford?

Galgon: les API de la place de marché sont toutes gratuites aujourd'hui pour une utilisation limitée, vous obtenez donc 5000 transactions d'API par mois. C'est le seul plan dont nous disposons actuellement. À l'avenir, nous déploierons des forfaits payants en fonction de l'utilisation des API.

: Quelle est la prochaine étape pour Oxford?

Galgon: Où nous allons à partir d'ici, c'est vraiment trois domaines. Le premier domaine concerne la mise à jour et l'amélioration des modèles existants. Nous avons reçu des commentaires de développeurs [sur la façon dont] l'une des API pourrait ne pas fonctionner correctement avec certains types d'images. Nous y améliorerons le modèle de base.

Une des autres choses que nous ferons est de continuer à augmenter le nombre de fonctionnalités renvoyées par les modèles. Aujourd'hui, l'API Face vous donne l'âge et le sexe prédits. Nous avons vu de nombreuses demandes pour pouvoir reconnaître d'autres contenus dans les images.

Le troisième domaine est que nous allons élargir le portefeuille d'API que nous avons. Nous en avons quatre aujourd'hui, mais nous n'avons certainement pas terminé. Nous ne pensons pas que tout l'espace que nous voulons fournir ou les outils que nous voulons fournir soient encore complets. Nous continuerons d'ajouter de nouvelles API capables de traiter différents types de données ou de fournir des types de compréhension des données naturelles très différents de ceux que nous proposons aujourd'hui.