Textmining : tous aux données non-structurées, tout de suite !

Pour nous, professionnels des études, les données non-structurées, c’est comme la prose pour Monsieur Jourdain : nous en traitons depuis bien longtemps, sans même le savoir – pensons aux verbatims issus des questions ouvertes dans les études. Pourtant, ce terme en effraye certains. Qu’est-ce qui a augmenté l’importance de ces données textuelles ?

D’abord, on a vu depuis une dizaine d’années une diversification croissante des comportements des consommateurs ; leurs goûts, leurs préférences, leurs motivations changent davantage, plus rapidement, et deviennent plus hétérogènes. Pour comprendre les consommateurs, la question ouverte est devenue un véritable atout pour capter les signaux faibles ou les préoccupations particulières à une cible spécifique (pour ne pas dire un individu spécifique).

L’autre élément qui accroît l’importance des données non-structurées de façon exponentielle, c’est le fait que nos études utilisent davantage des données issues d’autres sources que celles des enquêtes : les données du web social, les avis déposés sur des sites de consommateurs et les données créées ou disponibles en entreprise (dont IBM estime qu’elles sont à 80% de nature non-structurée 1). Ces nouvelles données sont souvent très riches, mais seulement partiellement, voire pas du tout structurées.

Pour accélérer le traitement de ces données massives en plusieurs langues sans avoir à y laisser sa chemise, nous nous appuyons sur le traitement automatique de langues naturelles (TALN), une discipline à la frontière de la linguistique, de l’informatique et de l’intelligence artificielle, qui concerne l’application de programmes et techniques informatiques à tous les aspects du langage humain 2. Il nous permet de convertir la voix des consommateurs en matière exploitable dans nos analyses et nos recommandations data-driven grâce à un traitement préalable (pre-processing : suppression des stop words et Regex, conversion de verbatim en document, capitalisation / minisculisation, lemmatisation, racinisation, bag-of-words) et une analyse statistique (fréquence, fréquence inverse, ngrams, co-occurrences, corrélations, Latent Dirichlet Allocation) de tout le corpus, des verbatims individuels et des segments. 

La codification classique en a-t-elle pour autant perdu sa place prééminente ?

Loin de là ! Très souvent, les données non-structurées sont elliptiques et nécessitent d’être contextualisées pour être mieux comprises. Une compétence linguistique pragmatique, vis-à-vis de laquelle les humains sont beaucoup mieux armés que les machines ! Pour nous, ce n’est surtout pas un choix binaire ; nous nous devons d’optimiser la qualité de nos utilisations des données non-structurées en plaçant les curseurs de l’expertise humaine et la puissance des machines au bon endroit. On peut ainsi aisément optimiser le process en automatisant une partie du traitement des données non-structurées et en l’affinant et le validant avec l’intelligence humaine. Notre stratégie vise à éviter de façon systématique le piège consistant à devenir trop sélectifs face aux données massives, ce “trop plein d’information” contre lequel Nate Silver nous alerte dans son excellent « The Signal and the Noise » 3. Et pour ça, n’ayons pas peur et mettons-nous tous aux données non-structurées !


Sources :

  1. www-01.ibm.com/software/fr/data/bigdata : actuellement la façon la plus efficace d’intégrer les données vidéo est de transcrire le texte de la vidéo.
  2. Définition de Wikipedia tiré de Charniak, Eugene, Introduction to artificial intelligence, Addison-Wesley, 1984, page 2.
  3. « The instinctual shortcut that we take when we have too much information is to engage with it selectively, picking out the parts we like and ignoring the remainder, making allies with those who have made the same choices and enemies with the rest. »
Partager

Il n'y a aucun commentaire.

Ajouter un commentaire

*Champs obligatoire