Qu'est-ce que le Traitement Automatique du Langage (TAL) ?

Le Traitement Automatique du Langage (TAL), ou Natural Language Processing (NLP) en anglais, est un domaine du Machine Learning qui vise à rendre le langage écrit compréhensible par les systèmes informatiques afin qu'ils puissent réaliser certaines tâches pénibles et rébarbatives actuellement réalisées par les humains. Remarque: certains termes anglais sont parfois utilisés car ils sont plus connus que leurs traductions françaises.

Récentes avancées techniques du TAL

Les Technologies concernant le Traitement Automatique du Langage (TAL) ont radicalement changé au cours des dix-huit derniers mois permettant le développement de nouvelles solutions destinées aux entreprises.

Les nouveaux modèles «Transformers» atteignent un haut niveau de précision sur les tâches courantes et permettent l'entraînement de modèles de langage sur de grands corpus sans aucune annotation. Cela signifie qu’un faible volume de données client est nécessaires pour utiliser un modèle de langage pour une tâche particulière.

De quelle manière le TAL transforme le service client ?

Voici quelques-uns des scénarios que le TAL peut permettre au sein de votre entreprise: 

Classification et étiquetage automatique des emails, documents, tickets d'incidents...

Routage et acheminement automatique des emails, tickets d'incidents...

Réponse automatisée aux formulaires et aux emails

Extraction d'informations à partir de documents clients et de pièces jointes aux e-mails

Analyse du ressenti / sentiments clients

Analyse des médias sociaux pour identifier et classer les messages

Tous ces éléments permettent d’obtenir un service client plus efficace et efficient, donnant lieu à une meilleure expérience utilisateur et une amélioration de la productivité de votre organisation.

Comment fonctionne le Traitement Automatique du Langage ?

Cette section présente les informations clés concernant le Traitement Automatique du langage (TAL).

 Tout projet de TAL est généralement réalisé à travers une série d'étapes, ou «pipeline». L'objectif d’un Pipeline est de convertir des séquences de texte, comme des phrases ou des documents, en vecteurs de nombres qui peuvent ensuite être comparés quantitativement.

01
Segmentation du texte en Tokens (Tokenisation)

La première activité de la plupart des pipelines TAL est de diviser la séquence de texte en mots ou sous-mots, appelés « Tokens » (ou «jetons»). Il existe trois types d'approches de «tokenisation»: basées sur des mots, des sous-mots ou même une division au niveau des caractères.
Certains pipelines TAL effectuent aussi des activités de prétraitement supplémentaires. Ils peuvent supprimer des données non alphabétiques (telles que la ponctuation) ou transformer des tokens dans leurs formes canoniques (en déterminant la racine du mot) ou tenter de corriger automatiquement les erreurs dans le texte.

02
Conversion des mots en nombres (Word Embedding)

Une fois que la phrase est divisée en une collection de tokens, nous devons convertir ces tokens en vecteurs numériques. Ces vecteurs numériques seront utilisés pour représenter les mots dans le modèle de Machine Learning qui sera utilisé pour réaliser une activité.
Cette conversion de mots, ou de sous-mots, en valeurs numériques est apprise par l’algorithme de Machine Learning à partir de large corpus de textes qui contiennent de nombreuses instances des mots dans de nombreux contextes.

03
Extraction d'informations

Une fois que les séquences de mots sont converties en séquences de vecteurs numériques, les modèles peuvent être entraînés à reconnaître des patterns dans les séquences qui correspondent aux informations qui nous intéressent. Par exemple, les phrases et les documents contiennent un ensemble de mots spéciaux appelés «entités» . Des exemples d’entités sont les noms de personnes, les adresses, les dates, les devises ou les noms de produits. La reconnaissance d'entités nommées (ou en anglais NER, Named Entities Recognition) permet de les traiter de manière appropriée. Par exemple, nous pouvons vouloir trouver des instances d'informations personnelles (PII) dans des documents ou rechercher des informations confidentielles concernant l'entreprise.
Le NER n'est que l'un des moyens par lequel les modèles peuvent extraire de l’information à partir de texte. Le spectre du TAL est vaste et comprend des sujets tels que l'analyse de sentiments, l'extraction de phrases, la désambiguïsation, la liaison d'entités nommées (NER), l'extraction de relations et l'extraction d'événements.

04
Développement d'un modèle

Avant 2018, les modèles TAL étaient entraînés en lisant des phrases selon une séquence ordonnée de mots. En 2018, les modèles Transformers, basés sur des «mécanismes d'attention», ont changé ce paradigme. Les modèles Transformers lisent la phrase en entier, puis utilisent les mécanismes d'attention pour estimer la corrélation des mots entre eux. Cela garantit que le contexte d’un mot est pris en compte et qu'aucun élément du contexte n'est perdu ou «oublié» comme il aurait pu l'être avec les algorithmes séquentiels précédents.

Le modèle Transformer le plus célèbre est BERT qui signifie Bidirectional Encoder Representation from Transformer (ou en français, Représentation d'Encodeur Bidirectionnel de Transformer). BERT encode une représentation de mots (ou sous-mots) dans une phrase de telle sorte que le contexte avant et après chaque mot est pris en compte dans sa représentation. C’est pour cela qu’il est dit «bidirectionnel». BERT est un «modèle de langage», c’est-à-dire un modèle qui transforme la représentation du langage d’un texte vers un codage qui lui est propre en utilisant sa «connaissance» statistique de la langue. La procédure utilisée pour entraîner le modèle BERT utilise des corpus de texte non étiquetés comprenant par exemple l'ensemble de Wikipédia (2 500 millions de mots).

Une fois que BERT est entraîné à comprendre une langue, il peut ensuite être spécialisé (ou « fine-tuned ») pour une tâche particulière, un domaine particulier ou une entreprise spécifique. De cette manière, BERT atteint des performances SOTA (State-of-the-Art) pour de nombreuses tâches de TAL. Les tâches peuvent être l'analyse des sentiments, les questions / réponses et la reconnaissance d'intentions. Ces types de tâches nécessitent généralement des données labellisées manuellement, ce qui prend beaucoup de temps, coûte très et a pour conséquence d’avoir un faible volume de données.

05
Évaluation du modèle

Un modèle est évalué en fonction de ses performances internes et des résultats commerciaux qu'il fournit. Les performances internes d'un modèle sont mesurées sur un «dataset de tests» avec des indicateurs tels que la précision, le recall et le score F1. Une fois que les performances internes du modèle sont suffisantes, nous devons aussi nous assurer que le modèle remplit les objectifs commerciaux pour lesquels il a été développé.
Par exemple, pour un modèle de classification spam / e-mail, nous aurions besoin d'évaluer les performances internes du modèle (en utilisant le score F1), et également de vérifier avec les utilisateurs finaux que le modèle fonctionne correctement. Pour cela, on vérifiait auprès des utilisateurs qu'ils n'ont reçu aucun spam dans leur boîte mail et qu'aucun email n'a été classé à tort comme spam.

06
Monitoring et Re-entrainement du modèle

Une fois le modèle déployé dans l'environnement de production, il doit être monitoré pour s'assurer que ses performances restent appropriées. Ceci est appelé «Human in the Loop». Les personnes sont invitées à identifier chaque fois que le modèle fait une erreur, de nouvelles étiquettes sont alors enregistrées et ajoutées à l'ensemble d'apprentissage.
De temps en temps, le modèle est ré-entraîné lorsque suffisamment de nouvelles données sont disponibles et que nous voulons que le modèle en tienne compte.

Suivez les dernières tendances en matière d'automatisation de la relation client dotée AI basée sur le Natural Language Processing (NLP)

Nous prévoyons de publier régulièrement nos réflexions et les dernières tendances sur ces sujets en les traitant à la fois d'un point de vue commercial et technique.

Merci de renseigner votre email pour vous abonner à nos newsletters.
(vos coordonnées ne seront pas partagées en dehors de Y Meadows)

illustrated letter with people in and around it
Suivre Y Meadows

© 2020 Y Meadows, Inc.