Alibaba DAMO Academy, le programme de recherche mondiale du Groupe Alibaba arrive en pole position du dernier classement mondial Visual Question Answering (VQA), dépassant les performances d’un humain dans le même contexte. C’est la première fois qu’une machine surpasse les humains dans la compréhension des images pour répondre à des questions textuelles, avec un taux de précision de 81,26 % pour répondre aux questions liées aux images, et 80,83% pour la performance de l’humain.
Le challenge organisé chaque année depuis 2015 par la conférence visuelle de référence mondiale CVPR, attire des acteurs mondiaux, notamment Facebook, Microsoft et l’Université de Stanford. L’évaluation présente une image et une question connexe en langage naturel, à laquelle les participants sont invités à fournir une réponse précise en langage naturel. Cette année, le défi contenait plus de 250 000 images et 1,1 million de questions.
La percée de l’intelligence artificielle dans la réponse aux questions liées à l’image a été rendue possible grâce à la conception d’algorithmes innovants par l’Alibaba DAMO Academy. En s’appuyant sur ses technologies exclusives, notamment ses diverses représentations visuelles, ses modèles linguistiques multimodaux pré-entraînés, sa fusion sémantique intermodale adaptative et sa technologie d’alignement.
L’équipe d’Alibaba a pu réaliser des progrès considérables non seulement dans l’analyse des images et la compréhension de l’intention des questions, mais aussi dans la réponse à ces dernières par le biais d’un raisonnement approprié, tout en l’exprimant dans un style conversationnel proche de celui de l’homme.
Le modèle d’Alibaba est également arrivé en tête du classement de référence GLUE, un tableau industriel perçu comme le test de base le plus important pour le modèle NLP. Le modèle d’Alibaba a largement dépassé les performances des lignes de base humaines, marquant ainsi une étape clé dans le développement de systèmes robustes de compréhension du langage naturel.
En 2019, le modèle d’Alibaba a dépassé les scores humains lorsqu’il a été testé par le jeu de données Microsoft Machine Reading Comprehension, l’un des tests de compréhension de la lecture les plus difficiles du monde de l’intelligence artificielle. Le modèle a obtenu un score de 0,54 dans la tâche de questions-réponses MS Marco, surpassant le score humain de 0,539, une référence fournie par Microsoft. En 2018, Alibaba a également obtenu un score supérieur au point de référence humain dans le Stanford Question Answering Dataset, l’un des défis de lecture-compréhension automatique les plus populaires au monde.