Text and data mining

Le service a pour but de mettre à disposition des web services de fouille de texte permettant l’enrichissement des données et leur alignement avec des ressources diverses (référentiels, terminologies…).

De méthodes de traitement automatique de la langue (TAL), d’apprentissage automatique (machine learning) ou encore d’analyse sémantique sont mises en œuvre afin d’extraire des textes les informations essentielles.

Pascal Cuxac

Responsable du service

Vers une offre de web services TDM...

Lancement des premiers web services sur la classification Pascal/Francis, l’attribution de RNSR, la détection de langue, Teeft (indexation), Unpaywall, et des services de mapping (halAuthorId/IDref/ORCID).

Enjeu : Faciliter l’usage de traitements de text & data mining pour :

extrapoler de nouvelles données à partir des données d’origine,
mettre en évidence des données existantes, mais cachées par le volume de données,
réduire le volume de données pour des représentations graphiques.

Ambition : interconnecter les compétences des différents services :

Bibliométrie et TDM,
Corpus et TDM,
Terminologie/Traduction et TDM.

et aussi...

Le service a travaillé sur l’import de plus de 800 thèses d’exercice en santé de l’Université de Lorraine (UL) dans le portail HAL-UL à travers un dépôt massif et automatisé.

Il s’est appuyé sur la base CorHAL.

Partenariats et collaborations

Université de Lorraine (UL) : travail à la demande de l’UL sur l’extraction des thèses d’exercice de l’UL dans Conditor et le reversement automatique dans HAL-UL.

IRD : Utilisation de Lodex et des web services de TDM pour la mise en valeur des données de la base Horizon, également avec les données Conditor.

Abes : participation à l’enrichissement et à l’alimentation de Conditor.

CCSD : collaboration dans le projet CorHAL.

Côté science ouverte

CorHAL : Alimentation de HAL par des bases externes internationales

Afin de proposer aux chercheurs des publications à déposer dans HAL, l’outillage développé doit permettre de collecter les métadonnées de publications et d’importer automatiquement le texte intégral.

Pour cela, l’Inist moissonne les données, les homogénéise, les dédoublonne et les enrichit via différents traitements TDM (classification thématique, attribution de codes RNSR, etc.), et met ensuite les corpus enrichis à disposition du CCSD.

Ils témoignent...

“Les travaux de l’équipe TDM permettent de mettre en valeur le corpus constitué ainsi que de tester, valider et proposer à l’ensemble de l’ESR des nouveaux web-services qui interagissent entre les nombreux et différents corpus internationaux en faveur des problématiques actuelles telles que la Science Ouverte”

Nicolas Barts (IRD)

Un peu de com'

Atelier TextMine – Fouille de textes : Pascal Cuxac, Vincent Lemaire, Cédric Lopez, EGC 2021, Montpelier, Janvier 2021

Cuxac P., Lamirel J.C, Biffet A.. : Workshop on IncrLearn “Incremental classification and clustering, concept drift, novelty detection in big/fast data context”, ICDM 2021, 7 december 2021, Auckland, New-Zealand.

Lamirel, JC., Gueddari, Y., Wang, Y. et al. Analysis of the dynamics and influence of the research work of Prof. Liu Zeyuan in China featuring a new hybrid approach combining community detection with topic tracking. Scientometrics 126, 6273-6300 (2021).

Intervention en licence 3 Information et Communication à l’UL pour une sensibilisation à la bibliométrie De l’ontologie OntoTM à TM Tools Explorer article publié sur le site web Inist, novembre 2021

De l’ontologie OntoTM à TM Tools Explorer article publié sur le site web Inist, novembre 2021

Poster présenté aux Journées de l’Abes (JABES), 12-13 octobre 2021, Montpellier

En chiffres...

CorHAL

2 174 406 notices
1 648 821 notices uniques
4 sources

Partenariats et collaborations

Université de Lorraine (UL) : travail à la demande de l’UL sur l’extraction des thèses d’exercice de l’UL dans Conditor et le reversement automatique dans HAL-UL.

IRD : Utilisation de Lodex et des web services de TDM pour la mise en valeur des données de la base Horizon, également avec les données Conditor.

Abes : participation à l’enrichissement et à l’alimentation de Conditor.

CCSD : collaboration dans le projet CorHAL.

D'autres temps forts

Dans un contexte de science ouverte, le service TDM a réalisé une première une étude comparative du WoS avec les archives ouvertes HAL et Pubmed pour analyser la complétude des réservoirs ouverts en vue d’études bibliométriques, mais également pour faire une analyse de l’Open Access, principalement pour les publications du CNRS.

Poster présenté aux journées de l'Abes - 12 / 13 octobre 2021 à Montpellier