NOVLEX: Une Base de Données Lexicales pour les Elèves de Primaire


    La base de données lexicales NOVLEX est un outil permettant d'estimer l'étendue et la fréquence lexicale du vocabulaire écrit adressé à des élèves francophones de l'enseignement primaire.

    Elle a été constituée grâce à l'analyse de livres scolaires et extra-scolaires destinés à des élèves de CE2 (8-9 ans). NOVLEX est construit à partir d'un corpus d'à peu près 417 000 mots, ne comprenant ni noms propres, ni prénoms, ni noms de ville, ni onomatopées et ramenés en minuscule ("Un", "UN" et "un" sont une même entrée).

    De ce corpus nous avons extraits 20 600 entrées orthographiquement différentes (base d'occurences) et 9300 racines lexicales (base lexicale) distinctes (déterminées à l'aide du dictionnaire Larousse© ).
Dans la base d'occurences, toutes les formes orthographiques sont considérées comme des entrées séparées (e.g. "cheveu" et "cheveux" sont deux entrées distinctes).


    Publication:
  • Lambert, E. & Chesnet, D. (2001). Novlex: une base de données lexicales pour les élèves de primaire. L'Année Psychologique, 101, 277-288.   [ Lire ]

Les auteurs:

   Eric Lambert
   MSHS - Université de Poitiers
   Centre de Recherches sur la Cognition et l’Apprentissage (CeRCA) (CNRS UMR 7295)
   5 rue Théodore Lefbvre
   86000 Poitiers
   Email: eric.lambert@mshs.univ-poitiers.fr

David Chesnet
MSHS - Université de Poitiers (CNRS UMS 842)
5 rue Théodore Lefbvre
86000 Poitiers
Email: David.Chesnet@mshs.univ-poitiers.fr


Consulter les bases:


Télécharger en format:

     NovLex 1: base lexicale
     NovLex 2: base d'occurences
    MS-Access 97 (1808 Ko)    MS-Excel 97 (2434 Ko)    Texte (CSV) (803 Ko)
    MS-Access 97 (1384 Ko)    MS-Excel 97 (1819 Ko)    Texte (CSV) (450 Ko)

Foire aux questions

 
NovLex © E. Lambert & D. Chesnet, 2000-2012.Mise à jour: 30 mars 2012