Istex – textes et corpus

Le service met à disposition de la communauté scientifique française des collections rétrospectives de la littérature scientifique mondiale.

Il développe des services de recherche de documents, de téléchargement et de visualisation de données pour permettre l’exploitation de ses ressources pour un usage avancé en fouille de textes.

Il met en place des actions de formation et de communication pour accompagner les chercheurs et les professionnels de l’IST dans la constitution de corpus de textes intégraux adaptés à des travaux d’analyse de contenu.

sabinebarreaux
Sabine Barreaux
Responsable du service
19 janvier 2021 : journée ISTEX

Logo IstexLa journée Istex a réuni plus de 480 participants (partenaires, utilisateurs, décideurs) en visio pour faire un bilan de ce service proposé à la communauté scientifique française depuis
2019. Ce moment de rencontre a permis de réaliser un état des lieux sur les usages et les avancées de la plateforme et de ses outils associés, et d’échanger sur l’évolution des contenus et des services.

Un premier corpus Collex-Persée

De nouveaux corpus éditeurs sont régulièrement chargés pour enrichir la couverture scientifique des ressources mises à disposition.

Cette année a vu l’arrivée d’un premier corpus acquis dans le cadre du groupement d’intérêt scientifique CollEx-Persée : Karger (133 e-books en médecine, publiés entre 2015 et 2019).

Partenariats et collaborations

ARK Alliance : dans le groupe de travail “NAAN Registry Working Group” composé d’une équipe de conservateurs bénévoles et internationaux, il s’agit de gérer et superviser le registre des institutions qui demandent un numéro d’attribution de nom (NAAN) afin qu’elles puissent commencer à attribuer des ARK.

Côté science ouverte
Accompagner la mise en place de nouveaux projets

En 2021, le service Istex était à nouveau présent lors de l’ANF TDM organisée conjointement par la DDoR du CNRS et l’INRAE sur le thème de “l’exploration documentaire et l’extraction d’information”.

La présentation de la constitution de corpus à partir du réservoir Istex a permis de faire découvrir aux participants (chercheurs, des doctorants et des ingénieurs d’appui à la recherche) la richesse et la pertinence des données et des services Istex pour mettre en oeuvre des projets de fouille de textes en toute indépendance.

Après l’ANF, les stagiaires ont pu bénéficier d’un accompagnement personnalisé dans le cadre de leur cas d’usage spécifique en architecture, en histoire et philosophie des sciences, et en astrophysique.

Ils témoignent...

Merci pour cette excellente journée, la haute tenue des échanges, la qualité des présentations et le déroulé de la journée ne méritent à mon avis que des éloges. L’intérêt du public est une reconnaissance de tout le travail accompli depuis toutes ces années, et les perspectives ouvertes par la table ronde donnent envie de continuer !

David Aymonin

(Abes)

Journée Istex 19/01/21

Un peu de com'

Vidéo sur le corpus Gold EN-ISTEX présenté à TALN 2021

Pastille vidéo sur ISTEX pour le TDM réalisée dans le cadre de l’ANF-TDM 2020

Atelier pratique : Constitution de corpus à partir des ressources Istex

Medial-UL, Villers-lès-Nancy, mars 2021

Journée sur la fouille de textes par l’exemple à travers l’exploitation des corpus ISTEX

ENSSIB – Inist (visio), avril 2021

Journée sur l’usage des données ISTEX

URFIST Occitanie (visio), mai 2021

Conférence TALN 2021

Enza Morale, Denis Maurel, Jeanne Villaneau, Jean-Yves Antoine.

Corpus EN-Istex : un corpus d’articles scientifiques annoté manuellement en entités nommées.

Traitement Automatique des Langues Naturelles, 2021, Lille, France. pp.6-7. hal-03265916

En chiffres...

Istex, c’est :

31 corpus éditeurs chargés
13 corpus spécialisés pour la fouille de textes
3 corpus d’actualité
9 318 revues / 348 769 monographies
23 584 204 documents dont :

  • 23 005 776 avec au moins 1 enrichissement (97,5 %)
  • 86 796 568 enrichissements générés sur les documents
Partenariats et collaborations

ARK Alliance : dans le groupe de travail “NAAN Registry Working Group” composé d’une équipe de conservateurs bénévoles et internationaux, il s’agit de gérer et superviser le registre des institutions qui demandent un numéro d’attribution de nom (NAAN) afin qu’elles puissent commencer à attribuer des ARK.

D'autres temps forts

L’outil de visualisation LODEX se dote d’un niveau de navigation supplémentaire dans les données décrivant les publications et permet ainsi de mettre en valeur les enrichissements produits sur ces données.

Le site Revue de Sommaire, service phare de data.istex, propose deux nouvelles fonctionnalités de navigation :

  • la recherche sur le regroupement en collections proposé par l’éditeur, pour les ouvrages ;
  • l’affichage des articles citant un ouvrage ou une revue dans l’archive Istex.

L’interface de téléchargement ISTEX-DL est maintenant accompagnée d’un nouveau tutoriel accessible en ligne sur le site Inist, sur data. istex, mais aussi sur la plateforme Callisto.

Des nouveaux jeux de données !

Le site data.istex compte cinq nouveaux jeux de données pour
valoriser les ressources Istex :

  • EN-ISTEX : Un corpus gold de 200 documents disposant d’entités nommées annotées manuellement pour permettre l’évaluation d’outils de détection automatique d’entités nommées ;
  • e-Éducation et Réfugiés – demandeurs d’asile : deux corpus dans la collection SHS pour éclairer les problématiques actuelles à l’aide de publications d’archives ;
  • Publications sur Istex : un jeu de données réunissant 48 publications provenant de HAL, Google Scholar, ArXiv sur l’utilisation des données Istex ;
  • Métriques sur les enrichissements Istex : un jeu de données présentant l’évolution chronologique des différents types d’enrichissement des données Istex.
En tweet