Utilisateur:L.strappazzon/notes

De Mythemes

Objectifs

  • Disjoindre les fonctions liées au wiki de celles d'analyses proprement dites.
  • Éviter au maximum de passer par l'api du wiki pour les opérations très répétitives :
    • interroger directement la db mySQL pour récupérer toutes les tables en début d'une opération d'analyse.
    • déposer directement les résultats sous formes de tableaux csv, graphes html et graphml, dans des dossiers accessibles par le serveur web
  • Permettre de définir des sous-groupes d'analyses :
    • actuellement : « tous les mythèmes dans toutes les œuvres avec laquelle ils ont une liste de langue compatible »
    • demain : « tous les mythèmes dans toutes les œuvres compatibles avec leurs restrictions (langue, univers, corpus…)

Connexion au wiki

Collecter les œuvres à traiter

  • Texte - revoir la possibilité de désigner un texte sur Seafile sans le publier, couplé avec une détection/conversion utf-8
  • métadonnées
  • Paramètres de traitement propres à chaque œuvre (rayon, ratio, sur-représentation minimale et autres seuils)
  • Corpus - nouveau champ qui permettra de faire des regroupements libres d'œuvres à apparier avec des sous-ensembles de mythèmes
  • Le programme d'analyse ne modifie pas ces pages - sauf si une modalité de récupération de pages générées directement depuis le programme est envisagée : insertion de texte et paramètres en ligne de commande puis export vers le wiki
  • Les objets générés par l'analyse sont déposés dans un dossier attaché à l'œuvre auquel le wiki accède (comme pour les graphes .html et .graphml) ce qui permettra de mettre facilement à disposition une plus grande variété d'objets.

Définir les mythèmes

  • Nom
  • Description
  • Listes de représentants par langues + nouveaux paramètres (voir section mythemes)
  • Le programme d'analyse ne modifie pas ces pages - sauf si une modalité de récupération de pages générées directement depuis le programme est envisagée : insertion de paramètres en ligne de commande puis export vers le wiki

Déposer les résultats

  • Création et modification des pages Analyse. Un modèle, des paramètres
  • Éviter les bidouilles avec modification/insertion de paramètres
  • Revoir la situation des graphes de répartition des occurrences de mythème dans l'œuvre, au profit d'un dépôt comme pour .html et .graphml

Programme d'analyses

Il devrait pouvoir travailler indépendamment du wiki.

Une analyse c'est

  • Une œuvre et un mythème en entrée
  • Un résultats d'analyse en sortie

Une œuvre c'est

  • Un texte
  • Des métadonnées (Auteurs, date pub, langue…)
  • Une liste de corpus associés (= métadonnée ?)
  • Des paramètres de traitement (rayon, csr min, eff min, etc)

Questions

  • Une œuvre doit-elle appartenir à au moins un corpus ? Je pense que oui

Un mythème c'est

  • Une collection de listes de représentants du mythème (¿ une au plus par langue ?)
  • Un jeu de restrictions portant sur la nature des œuvres où rechercher ce mythème (ex : rechercher seulement sur les travelogues, rechercher seulement sur les œuvres d'un auteur, seulement dans un corpus, etc.) - A priori ceci serait une caractéristique forte du mythème ainsi défini, ne pouvant pas être modifiée à tout bout de champ. Peut-être faudra-t'il restreindre le droit de créer des mythèmes

Cette deuxième caractéristique permettrait de travailler de façon différenciée sur des groupes d'œuvres sans polluer les résultats d'autres groupes. Les deux motivations sont :

  • Permettre à des chercheurs de travailler sur des corpus bien séparés
  • Permettre la recherche de mythèmes spécifiques à certains groupes d'œuvres en évitant leur détection erronée dans d'autres
  • Le fonctionnement actuel restera possible en qualifiant certains mythèmes d'universels, c'est à dire que l'on recherchera indistinctement dans toutes les œuvres, y compris celles qu'on ne connaît pas encore.

Questions

  • Un mythème doit-il avoir au moins un corpus ? Je pense que non
  • Doit-on permettre qu'il existe deux versions du même mythème (listes et/ou restrictions différentes) ?
  • Devrait-on plutôt placer les restrictions au niveau des listes, et donc autoriser plusieurs listes pour chaque langue d'un même mythème ?
J'ai l'impression que cette proposition est trop complexe à mettre en œuvre et utiliser. Si on autorise des variantes du même mythème, il faudrait une formule permettant de les lier, et réfléchir à ce que cela impliquerait pour les graphes et requêtes. Cela reviendrait en fait à imaginer un modèle de mythème subdivisé en sous-mythèmes… Je ne suis pas certain que ce soit nécessaire : si on éprouve le besoin de lier deux mythèmes définis par des listes et restrictions distinctes c'est sans doute qu'on peut fusionner leurs listes et prendre le pgcd de leurs restrictions.

Sélections

Comment détermine-t'on la liste des analyses à effectuer ?

Sous l'hypothèse que toute œuvre appartient à au moins un corpus, une analyse complète de cette œuvre signifie y rechercher tous les mythèmes non restreints ou ceux dont les restrictions conviennent à l' œuvre.

Comment consultons-nous les résultats d'analyses ?

Sur le wiki

A priori pas de changement pour les vues Œuvre et Mythème. Par contre il faut créer les vues Univers, Auteurs, Corpus, etc…

Hors wiki ou avec wiki comme intermédiaire

Mise à disposition de l'intégralité des résultats sous forme de tableaux Pandas et/ou csv. Éventuellement des versions partielles par corpus, univers, œuvres, mythèmes, auteurs…