Déverrouiller les secrets de la sémantique

Le traitement du langage naturel ou « NLP » est une branche de l'intelligence artificielle « IA », qui vise à permettre aux machines de lire, de déchiffrer, de comprendre et, finalement, d’interpréter le langage humain en y apportant de la valeur. Le NLP automatise de plus en plus les processus opérationnels allant du simple ; répondre à une question de l'internet, au plus complexe ; traiter des giga-octets de données non structurées et générer des terminologies, établir des liens implicites et inférer le contexte de ces données.
Aujourd'hui, le NLP est la force motrice derrière certaines des applications les plus couramment utilisées dans notre vie de tous les jours :

Applications de traduction de langue telles que Google Translate
Les traitements de texte tels que Microsoft Word et Grammarly qui utilisent le NLP pour vérifier la précision grammaticale du texte
Applications de réponse vocale interactive (RVI), utilisées dans les centres d'appels pour répondre aux questions et demandes de certains utilisateurs
Applications d'assistant personnel telles que OK Google, Siri, Cortana et Alexa

La communauté NLP se concentre actuellement sur l’exploration de plusieurs domaines de recherche clés, notamment :

Représentation sémantique
Traduction automatique
Inférence textuelle
Résumé de texte

Certes, les récents progrès des techniques de Machine Learning « ML » ont permis aux Data Scientists de faire avancer ces dernières techniques main dans la main. Les données sont générées et capturées à un rythme exponentiellement croissant, et le NLP est un instrument important dans notre boîte à outils pour nous permettre de mieux comprendre ce qui se passe sur les marchés mondiaux.

Quels sont les défis de l'utilisation du NLP en finance ?

Spécifiques à ce que nous faisons (investissement systématique), les données traditionnelles sur les marchés et les facteurs sont généralement structurés en termes numériques et sont relativement simples à utiliser dans nos machines ou les modèles Deep Learning « DL ». Cependant, malgré l'abondance de données textuelles riches tirées des actualités financières, des transcriptions des rapports sur les résultats et leur corrélation avec les marchés, actuellement, les gestionnaires quantitatifs exploitent rarement ces données textuelles. Cela est dû en partie au fait que les données textuelles brutes sont représentées par leurs caractéristiques catégoriques et symboliques, ce qui pose un problème pour les modèles quantitatifs. Cependant, une technique clé du NLP, qui pourrait aider à surmonter ce problème, est la représentation de la langue (c'est-à-dire l'incorporation de texte). Cette technique transforme les symboles de texte en vecteurs denses de haute dimension (c'est-à-dire plusieurs centaines ou milliers) digestibles numériquement, tout en préservant de manière importante la proximité sémantique. Chez RAM AI, nous avons développé un modèle de Deep Learning utilisant l'intégration de texte, capable d’interpréter à la fois des données factorielles et textuelles pour aider à capturer leurs interactions et, par la suite, leurs effets sur le marché au sens large.