Décortiquons ce compte Twitter !

Le but de ce projet est de déterminer la localisation d’un utilisateur, plus généralement de savoir s’il est suisse ou non, de Twitter via ses messages postés (tweets) en se basant uniquement sur le contenu des messages. Ceci permettrait, par exemple lors d’une intoxication alimentaire, de récolter le maximum de tweets d’habitants suisses relativement proches se plaignant de mêmes symptômes, afin de déterminer la source de la cause. Ainsi, l’OSAV (Office Fédéral de la Sécurité Alimentaire et des affaires Vétérinaires) pourrait prendre rapidement les mesures nécessaires. 

AlertCenter, un système développé par l’institut HumanTech, permet déjà à ce jour de récolter et d’analyser des tweets. Cependant, la quantité de tweets localisés géographiquement n’est pas suffisante. C’est pourquoi ce projet tente d’améliorer ce point en décortiquant les informations publiées sur Twitter, grâce à l’analyse de texte à l’aide d’un système de NLP (Natural Language Processing), afin de déterminer le lieu d’où le tweet a été posté (l’utilisateur n’étant pas obligé de publier ses informations géographiques). 

Le système NLP permet à un système informatique de comprendre le langage humain, mais ce langage reste complexe à analyser ; la machine peut donc avoir certaines difficultés à traduire le sens exact d’une phrase. L’analyse d’une phrase est réalisée par le NER (Named Entity Recognition)qui consiste à extraire les entités nommées d’une phrase. Ces entités peuvent être des mots qui gardent un sens en dehors de la phrase dans laquelle il se trouve, par exemple.

Trois objectifs sont réalisés pour parvenir à cette localisation. Premièrement, la détermination si un utilisateur est suisse ou non est établie. Deuxièmement, la probabilité qu’un utilisateur vienne d’une certaine région de Suisse est calculée. Troisièmement, une application web regroupant les différentes métadonnées d’un utilisateur est mise en place.

L’objectif de ce projet a été atteint, mais des améliorations futures sont aussi proposées. Par exemple, API de Googlepourrait être utilisé à la place de API OpenCage Geocoderpour obtenir les informations géographiques d’un tweet ; API de Googleétant plus rapide que API OpenCage Geocoder, mais engendre des frais de facturation.

General information
  • Date: 31.01.2019
  • Type: Semester project
  • Responsible: Jacky Casas