Microsoft dévoile la recherche vectorielle en avant-première et le clonage vocal en version complète
La conférence Inspire de Microsoft a été l'occasion d'annonces centrées sur l'IA. La recherche vectorielle, désormais en avant-première dans Azure Cognitive Search, et la fonction de clonage vocal se sont distinguées. Ces outils promettent d'affiner la recherche de données et de fournir des réponses personnalisées en langage naturel.

Lors de la conférence annuelle Inspire, le colosse de la technologie Microsoft a dévoilé une série de nouvelles fonctionnalités basées sur l'IA qui devraient améliorer les capacités de sa plateforme Azure. L'accent a été mis sur l'outil Vector Search, désormais disponible en avant-première via Azure Cognitive Search. Grâce à l'apprentissage automatique, Vector Search promet une expérience de recherche plus rapide, car il tire parti de ses capacités à appréhender l'essence et la connexité des données non structurées, telles que les images et le texte.
La technique employée par Vector Search - la vectorisation - gagne du terrain dans le domaine de la recherche. Elle consiste à transformer des mots ou des images en un ensemble de nombres, appelés vecteurs, qui sont représentatifs de leur signification. Cette représentation numérique permet un traitement mathématique et permet aux machines de comprendre et d'organiser les données. Par conséquent, les machines peuvent reconnaître des mots analogues dans l'"espace vectoriel", comme "roi" et "reine", et les localiser rapidement dans des bases de données comprenant des millions de mots. Cette approche de la recherche vectorielle a été adoptée par de nombreuses entreprises, dont Qdrant, SeMI Technologies, et d'autres géants de la technologie comme Amazon et Google.
Pour se différencier de ses concurrents, l'approche de la recherche vectorielle de Microsoft comprend la recherche vectorielle pure, la récupération hybride et le reclassement avancé. L'entreprise affirme que son outil de recherche vectorielle peut être utilisé dans des applications et des services pour fournir des réponses personnalisées en langage naturel, proposer des suggestions de produits et aider à identifier des modèles dans les données. En outre, les avantages de ce système comprennent la création d'applications de chat intégrées à la recherche, la conversion d'images en représentations vectorielles avec Azure AI Vision, et la récupération d'informations pertinentes à partir de grands ensembles de données pour faciliter l'automatisation des processus et des flux de travail. L'intégration de Vector Search s'étend à d'autres fonctionnalités d'Azure Cognitive Search, notamment la navigation à facettes et les filtres.
Pour éclairer davantage le paysage de l'IA, Microsoft déploie la solution Document Generative AI. Cette fonctionnalité fusionne les services existants de traitement de documents alimentés par l'IA de Microsoft - y compris Azure Form Recognizer - avec le service Azure OpenAI. Ce service est une facette de l'offre entièrement gérée de Microsoft, axée sur l'entreprise et destinée à fournir aux entreprises la technologie d'IA d'OpenAI. Le partenariat commercial en cours entre Microsoft et OpenAI a joué un rôle déterminant dans l'ajout de fonctions de contrôle et de gouvernance à la technologie.
S'appuyant sur les derniers modèles de langage d'OpenAI, la solution Document Generative AI traite les fichiers pour des tâches telles que la synthèse de rapports, l'extraction de valeurs, l'extraction de connaissances et la génération de nouveaux types de documents. Elle sert également de base aux réponses, à l'instar du ChatGPT d'OpenAI. Par exemple, la solution Document Generative AI permet aux clients de télécharger des factures, des contrats et des relevés, et aux employés de poser des questions sur les garanties de service et les postes spécifiques. La solution fournit également des réponses sous forme de texte, d'images ou de tableaux, tout en fournissant des citations avec un lien vers le contenu original.
Microsoft a ajouté que les capacités de la solution Document Generative AI peuvent être exploitées pour des interactions en langage naturel avec des documents et des activités de génération de contenu. Il peut s'agir de bulletins d'information, d'articles de blog, de résumés, de légendes, etc. Microsoft précise que la solution prend en charge des fonctions telles que le chat intelligent sur les documents, l'aide à la rédaction, une fonctionnalité de recherche complète, la prise en charge des requêtes, la traduction de documents, etc. Toutes ces tâches documentaires complexes et diverses sont gérées par les modèles d'OpenAI.
Dans un communiqué lié, Microsoft a annoncé que le modèle Whisper d'OpenAI, un modèle de reconnaissance automatique de la parole, sera bientôt intégré à la famille de services vocaux d'IA de Microsoft et au service Azure OpenAI. Les entreprises clientes devraient ainsi avoir la possibilité de transcrire et de traduire des contenus audio, ainsi que de générer des transcriptions par lots à plus grande échelle.
Parmi les autres annonces majeures faites à Inspire, Microsoft a déclaré l'offre d'un aperçu public pour Real-time Diarization, un service vocal basé sur l'IA capable d'identifier qui, parmi plusieurs personnes, parle en temps réel. En outre, Microsoft a élargi l'accès à Custom Neural Voice, un outil d'IA capable d'imiter au plus près la voix d'un acteur ou de créer des voix synthétiques originales. Auparavant, l'accès à cette fonctionnalité était limité. Toutefois, Microsoft exige désormais que les clients fassent une demande et obtiennent l'autorisation d'utiliser cette fonction. En outre, les clients doivent obtenir le consentement de l'artiste vocal et accepter un code de conduite pour utiliser la voix neuronale personnalisée.
Microsoft fournit également des outils de détection et de filigrane conçus pour faciliter l'identification des clips audio créés à l'aide de la voix neuronale personnalisée. Toutefois, ces outils ne peuvent à eux seuls résoudre de manière concluante les problèmes de licence et de consentement associés à la technologie de clonage vocal. Néanmoins, Microsoft a décidé de ne pas prendre part au combat associé à cette question.
Alors que des outils tels que Vector Search et Custom Neural Voice transforment le monde de la technologie, des plateformes telles qu' AppMaster, reconnue comme une plateforme de développement très performante sur No-code par G2, séduisent les utilisateurs qui cherchent à créer des applications dorsales, web et mobiles avec un minimum de codage. Dans un paysage technologique en pleine mutation, il sera fascinant de voir comment les fonctionnalités de l'IA continueront d'évoluer et de façonner notre avenir.


