Text and data mining
Le service a pour but de mettre à disposition des web services de fouille de texte permettant l’enrichissement des données et leur alignement avec des ressources diverses (référentiels, terminologies…).
De méthodes de traitement automatique de la langue (TAL), d’apprentissage automatique (machine learning) ou encore d’analyse sémantique sont mises en œuvre afin d’extraire des textes les informations essentielles.
Lancement des premiers web services sur la classification Pascal/Francis, l’attribution de RNSR, la détection de langue, Teeft (indexation), Unpaywall, et des services de mapping (halAuthorId/IDref/ORCID).
Enjeu : Faciliter l’usage de traitements de text & data mining pour :
- extrapoler de nouvelles données à partir des données d’origine,
- mettre en évidence des données existantes, mais cachées par le volume de données,
- réduire le volume de données pour des représentations graphiques.
Ambition : interconnecter les compétences des différents services :
- Bibliométrie et TDM,
- Corpus et TDM,
- Terminologie/Traduction et TDM.
Le service a travaillé sur l’import de plus de 800 thèses d’exercice en santé de l’Université de Lorraine (UL) dans le portail HAL-UL à travers un dépôt massif et automatisé.
Il s’est appuyé sur la base CorHAL.
Université de Lorraine (UL) : travail à la demande de l’UL sur l’extraction des thèses d’exercice de l’UL dans Conditor et le reversement automatique dans HAL-UL.
IRD : Utilisation de Lodex et des web services de TDM pour la mise en valeur des données de la base Horizon, également avec les données Conditor.
Abes : participation à l’enrichissement et à l’alimentation de Conditor.
CCSD : collaboration dans le projet CorHAL.
Afin de proposer aux chercheurs des publications à déposer dans HAL, l’outillage développé doit permettre de collecter les métadonnées de publications et d’importer automatiquement le texte intégral.
Pour cela, l’Inist moissonne les données, les homogénéise, les dédoublonne et les enrichit via différents traitements TDM (classification thématique, attribution de codes RNSR, etc.), et met ensuite les corpus enrichis à disposition du CCSD.
“Les travaux de l’équipe TDM permettent de mettre en valeur le corpus constitué ainsi que de tester, valider et proposer à l’ensemble de l’ESR des nouveaux web-services qui interagissent entre les nombreux et différents corpus internationaux en faveur des problématiques actuelles telles que la Science Ouverte”
Nicolas Barts (IRD)
Atelier TextMine – Fouille de textes : Pascal Cuxac, Vincent Lemaire, Cédric Lopez, EGC 2021, Montpelier, Janvier 2021
Cuxac P., Lamirel J.C, Biffet A.. : Workshop on IncrLearn “Incremental classification and clustering, concept drift, novelty detection in big/fast data context”, ICDM 2021, 7 december 2021, Auckland, New-Zealand.
Lamirel, JC., Gueddari, Y., Wang, Y. et al. Analysis of the dynamics and influence of the research work of Prof. Liu Zeyuan in China featuring a new hybrid approach combining community detection with topic tracking. Scientometrics 126, 6273-6300 (2021).
Intervention en licence 3 Information et Communication à l’UL pour une sensibilisation à la bibliométrie De l’ontologie OntoTM à TM Tools Explorer article publié sur le site web Inist, novembre 2021
De l’ontologie OntoTM à TM Tools Explorer article publié sur le site web Inist, novembre 2021
Poster présenté aux Journées de l’Abes (JABES), 12-13 octobre 2021, Montpellier
CorHAL
2 174 406 notices
1 648 821 notices uniques
4 sources
Université de Lorraine (UL) : travail à la demande de l’UL sur l’extraction des thèses d’exercice de l’UL dans Conditor et le reversement automatique dans HAL-UL.
IRD : Utilisation de Lodex et des web services de TDM pour la mise en valeur des données de la base Horizon, également avec les données Conditor.
Abes : participation à l’enrichissement et à l’alimentation de Conditor.
CCSD : collaboration dans le projet CorHAL.
Dans un contexte de science ouverte, le service TDM a réalisé une première une étude comparative du WoS avec les archives ouvertes HAL et Pubmed pour analyser la complétude des réservoirs ouverts en vue d’études bibliométriques, mais également pour faire une analyse de l’Open Access, principalement pour les publications du CNRS.