• Recherche,

Projet transversal "Sélection, extraction, représentativité et analyse des données en discours"

linguistique de corpus ; constitution de corpus ; sélection

Pilotage : Abidrabbo Alnassan (MCF arabe), Christophe Coupé (docteur anglais), Mathilde Dargnat (MCF français) et Philippe Millot (MCF anglais)


Le projet « Sélection, extraction, représentativité et analyse des données en discours » est un projet transversal en ce qu’il souhaite regrouper des collègues (EC et doctorant/es) travaillant aussi bien dans l’Axe 1, « Linguistique appliquée » que dans l’Axe 2, « Linguistique théorique ». L’objectif premier de ce projet est d’encourager la réflexion sur les corpus, écrits, oraux ou multimodaux, de la sélection des données jusqu’à leur extraction et leur traitement. Cette réflexion s’inscrira dans le projet quinquennal du CEL. Ce projet se veut donc inter-axe, interdisciplinaire, mais aussi interlangue dans la mesure où les préoccupations autour des corpus sont transversales aux langues et disciplines étudiées.

La notion de « corpus » connaît de nombreuses acceptions selon que l’on a une approche descendante (corpus-based) ou ascendante (corpus-driven) des corpus. On s’accordera toutefois sur le fait que le corpus est un observatoire de langue explicitement construit et structuré. Le corpus, c’est aussi (souvent) un échantillon de langue. De fait, il échappe à l’exhaustivité qui témoignerait d’une représentativité idéale. Ce projet transversal s’intéressera également à la question de la représentativité des corpus.

Ce projet accorde une attention particulière à la formation des enseignant/es-chercheurs/ses et étudiant/es aux outils de la linguistique de corpus (souvent appelée « linguistique outillée » dans la sphère scientifique francophone) tels que #Lancsbox, WMatrix5, SketchEngine et AntConc pour les corpus écrits et PRAAT, SPPAS ou encore ELAN pour les corpus oraux et vidéo. L’existence de ce projet se justifie pleinement par la raison d’être du CEL : l’analyse des discours. Ainsi, la formation des enseignant/es-chercheurs/ses et étudiant/es aux outils de la linguistique de corpus participera plus largement à la réflexion méthodologique sur l’analyse des discours.

Plusieurs séminaires de formation seront proposés aux enseignant/es-chercheurs/ses et étudiant/es. Il s’agira également dans ce projet de réfléchir à l’annotation des corpus aussi bien métalinguistique qu’au niveau des métadonnées elles-mêmes. Ce sont ces dernières qui permettent de rendre le corpus interrogeable (machine-readable) et d’assurer la pérennité des données. Les collègues ayant des compétences dans un ou plusieurs outils de linguistique de corpus sont invité/es à proposer des formations. Par ailleurs, ce projet a pour ambition d’organiser des manifestations scientifiques autour des corpus (séminaires, journées d’étude, colloques, etc.).