Détection de Faisceaux de Synonymes et de Méronymes
C'est un dictionnaire idéologique du français. Un peu comme le dictionnaire de Julio Casares pour l'espagnol. Et c'est une ressource pour la détection automatique des isotopies.
Greimas [GREIMAS, A. J. (1970), Du sens, Paris, Seuil, 318 p.] suppose qu'il existe une forme de cohérence interne de la sémantique qui cristallise proprement autour de noyaux lexicaux, de mots "lourds" comme il y a des molécules lourdes, dans le texte, capables de souder des "nuages" de mots dont le répertoire "fait sens", "fait le sens" en quelque sorte. Ces isotopies sont les constituants moléculaires du sens de tout texte.
Le logiciel lexichamp détecte automatiquement les isotopes lexicaux. L'interface est simple, mais ce qui est intéressant dans cet objet, c'est la ressource française qui est derrière: nous avons calculé les proximités statistiques à partir de tous les textes français depuis la Renaissance et isolé, grâce à des modèles statistiques et probabilistes, les "couples" lexicaux qui avaient l'air d'être sémantiquement liés. Cette ressource permet de créer des liens par exemple entre "homme" et "femme" ou entre "chat" et "chien" alors qu'aucun dictionnaire classique n'établit de relation de synonymie entre ces mots. En appliquant cet outil sur des textes plus ou moins longs, on fait surgir de vraies relations sémantiques fondées non pas sur le ressenti mais sur la légitime détection de modèles répétés et attestés.
L'école Américaine depuis DiMaggio and Bryson [DiMaggio, P., Bryson, B., 2007. Public attitudes toward cultural authority and cultural diversity in higher education and the arts. In: Blake, C.N. (Ed.), The Arts of Democracy: Art, Public Culture and the State. University of Pennsylvania, Press, Philadelphia, pp. 243–274 - lien] développe à travers le topic modeling la reprise de cette vision du texte, pourtant bien documentée.
Les travaux sur ce projet ont débuté en 2011 lorsque nous avons commencé à travailler sur les moyens de thématiser automatiquement des fragments littéraires. Les besoins dans ce type de recherches sont nécessaires pour la classification automatique de la correspondance, par exemple dans le projet des archives de Gordes, ou le repérage de notions littéraires au sein de vastes corpus. Nous avons donc procédé par entraînement sur toute la littérature française moderne en procédant à des relevés de cooccurrences pertinents. La ressource est enrichie des répertoires et thesaurus qui étaient alors connus.
Le projet voudrait thématiser les éléments de réseaux automatiquement détectés. Pour cela, il est nécessaire de nommer chaque réseau.
La ressource se présente sous la forme d'un thesaurus XML (XSD Schema) de 80 Mégas environ. Pour obtenir le lien de téléchargement, il faut entrer en contact par mail : xavierlaurentsalvador AT gmail .
En plus de 8 ans, les équipes n'ont cessé d'évoluer, et la disparition de l'UMR LDI a considérablement contribué au démantèlement des recherches. Au coeur du projet, on trouve Xavier-Laurent Salvador; Fabrice Issac chercheurs à Paris 13 au sein du Lab' TTN. Mais aussi des étudiants (Sylvain Chea), des collègues de passage et tous les collègues des projets avec qui nous collaborons ponctuellement pour la mise en évidence d'une problématique.
Ce site a été publié grâce à Isilex, une plateforme d'application RestXq liée à Basex, développée par Xavier-Laurent Salvador assisté de Sylvain Chea.