Chat with us, powered by LiveChat

Assistants vocaux : la révolution invisible

Expérience client - Le 16/03/2020

Cet article vous est proposé par Oxana Gouliaéva

 

Siri, Alexa, Assistant Google et même Bixby pour certains. Les assistants vocaux sont une des nouveautés de ces dernières années qui sont entrés dans le quotidien de plus de 25% des Américains et commencent à s’imposer en France. En Chine les acteurs locaux seraient familiers pour plus de 40% de la population. Mais qu’est-ce que c’est, comment les utiliser, à quoi cela sert et surtout, est-ce vraiment une révolution ?

Les assistants vocaux associent deux aspects : des assistants virtuels et une interface vocale, d’où le terme complet « assistants virtuels à commande vocale ». Ils conjuguent des algorithmes d’intelligence artificielle, des systèmes de reconnaissance et de génération vocales voire, plus important encore, une nouvelle approche dans l’accès à l’information.

Les assistants s’inscrivent dans les grandes tendances technologiques de fond (montée des plateformes, AI, données, personnalisation, multiplication des appareils, etc.) et dans la lignée des transformations d’interfaces homme-machine, ce qui ne laisse aucun doute sur leur potentiel à modifier profondément nos comportements et nos usages. Les marques cherchent à les inclure dans leur marketing mix comme un medium publicitaire, un nouveau canal de distribution, une interface de vente, de contact et de relation client, en misant sur une intimité inédite avec leur client. Ils apportent encore un nouveau spectre d’interrogations sur le respect de la vie privée, la protection des données et la confiance, principaux freins à l’adoption et garde-fous fondamentaux envers des tentations orwelliennes.

Assistants virtuels : entre IA, chatbots et enceintes connectées

Un assistant virtuel est un programme informatique qui s’appuie sur plusieurs technologies d’intelligence artificielle pour effectuer des tâches ou rendre des services à l’utilisateur. Pour cela il interprète ses requêtes (sous forme de texte, voix ou tactile) et interagit avec lui en mode conversationnel. Il est plus précis de dire qu’un assistant vocal est une combinaison d’agents intelligents (dont chacun exécutera une tâche spécifique), d’applications (dont les applications vocales, voiceapps, appelées Skills sur Alexa et Actions sur l’Assistant Google) et de connexions entre les données. Grâce au machine learning l’assistant capitalise sur toutes les interactions pour s’améliorer et apporter des réponses plus personnalisées et plus efficaces. Le service conversationnel est assuré par les chatbots (aussi appelés « agents conversationnels » ou « bots conversationnels ») qui généralement fonctionnent à travers trois types d’interfaces :

  • à travers le clavier, par exemple, sur les messageries instantanées,
  • à travers des canaux non verbaux, par exemple, par la sélection parmi les images proposées,
  • à travers la voix grâce au micro du smartphone ou aux objets statiques, tels qu’enceintes connectées (ou smart home speakers) du type Écho d’Amazon, Google Home ou HomePod d’Apple. Une version vocale d’un chatbot s’appellera « voicebot ».

Ce troisième type d’assistants – assistants virtuels à commande vocale – sont couramment appelés « assistants vocaux ».

Les enceintes connectées sont parfois, à tort, assimilées aux assistants vocaux, mais ne sont en réalité que leur partie matérielle, visible. Les assistants vocaux revêtent des formes diverses : comme applications installées sur les smartphones, tablettes, ou directement embarqués sur les ordinateurs, terminaux mobiles, montres connectées et autres wearables, dans les voitures ou sur les équipements de la maison (Smart Home).

Assistant vocal et ses algorithmes

Les assistants virtuels combinent plusieurs technologies : plusieurs algorithmes d’IA hautement optimisés qui participent à créer l’expérience conversationnelle vocale, le machine learning (apprentissage machine ou apprentissage automatique) qui permet d’apprendre de chaque interaction et, à terme, de personnaliser l’expérience, et enfin, la capacité de calcul du Cloud, qui exécute l’essentiel des traitements en permettant à l’IA d’accéder à une multitude de ressources en ligne.

Les principaux algorithmes sont :

  • L’algorithme speech-to-text transforme la voix en texte écrit.
  • ASR (automatic speech recognition ou reconnaissance de la langue) qualifie la capacité d’une machine à reconnaître la langue dans laquelle l’utilisateur s’adresse à elle, suivant sa grammaire.
  • NLP (naturel language processing ou traitement du langage naturel) est un ensemble de techniques qui permettent :
    • la compréhension par une machine des intentions exprimées verbalement par un humain (NLU, naturel language understanding ou compréhension du langage naturel),
    • la synthèse sous forme de phrases de la réponse apportée par la machine à la demande de l’utilisateur (NLG, naturel language generation ou génération en langage naturel).
  • Le text-to-speech (synthèse vocale) permet à la machine de transformer un texte en sons en produisant son équivalent parlé, compréhensible par un être humain.

La performance croissante des algorithmes, avec 95 % de compréhension des mots par la machine, favorise l’adoption plus rapide encore des assistants vocaux.

Voix, interface naturelle et universelle

La voix est aussi une nouvelle interface qui répond à une vieille question de l’interface universelle et naturelle qui constitue l’intérêt principal des assistants. La voix est une technologie qui enlève de la complexité à la technologie pour atteindre une population toujours plus large : pour utiliser les tout premiers mainframes il fallait être un professionnel diplômé, avec le MS DOS il fallait être geek, avec les surfaces tactiles l’usage s’élargissait et avec la voix l’utilisation sera universelle à l’horizon de la prochaine décennie. La voix, dans un ensemble biométrique, constituera le nouveau standard de l’interaction homme-machine, en apportant de nombreux usages et fonctionnalités.

Les forces de la voix sont multiples. Avant tout elle est intuitive (70 % des requêtes vocales sont faites en langage naturel) et rapide (en moyenne, en une minute, un individu saisira sur clavier 33 mots de texte mémorisé ou 19 mots pour la composition, tandis que la conversation est tenue à 200 mots environ[1]). En découlent les avantages de la commande vocale (et donc les assistants vocaux) :

  • La quasi-immédiateté: poser des questions, obtenir des réponses et l’accomplir plus vite (y compris, obtenir des réponses aux questions).
  • La multimodalité: passer de la voix au clavier ou au tactile dans la même conversation, selon le contexte et le confort d’utilisation.
  • L’accessibilité : les commandes peuvent s’opérer sans proximité immédiate de l’objet d’interface. Tout devient « à portée de voix ».
  • Le multitasking: le fait d’opérer plusieurs activités en même temps, notamment en ayant les mains occupées, par ex., pendant la préparation de repas ou en voiture.

 

Toutes ces évolutions, combinées avec la miniaturisation des composants et la multiplication des canaux de communication, participent à une intégration de plus en plus étroite de l’internet et de l’IA dans notre quotidien. Ces technologies deviendraient, à l’instar de l’électricité, omniprésentes, mais invisibles, pour aboutir à une « intelligence ambiante », qui se distingue par ces trois composantes principales : ubiquité, contextualisation et interaction naturelle. Contrairement aux interfaces informatiques traditionnelles, leur utilisation se fera d’une façon naturelle et intuitive, par la voix, le regard, les gestes. Par son caractère omniprésent et universel, l’intelligence ambiante deviendrait une niche d’innovation et de croissance économique, capable d’améliorer le confort de vie, favoriser des modes de vie moins consommateurs d’énergie et des gains de productivité en entreprise. Il est opportun de rappeler ici la célèbre phrase de Nicholas Negroponte du MIT Lab : « Computing is not about computers anymore. It’s about living »[2]. Les technologies vocales n’en sont que la première hirondelle.

 

[1] Source: https://fr.wikipedia.org/wiki/Mot_par_minute

[2] « L’informatique ne concerne plus seulement les ordinateurs, mais notre vie tout entière ».

Nos partenaires

Platinium Sponsors

Silver Sponsors

Avec le soutien de

Gold Sponsors

Bronze Sponsors