Aide:Accueil
À propos de la page d'aide
Cette page expose le fonctionnement de ce wiki et de l'automate associé qui réalise les analyses de textes. Comme l'ensemble du site, elle a vocation à être enrichie et améliorée par les rédacteurs du wiki au gré des évolutions du projet et des difficultés rencontrées par chacun. N'hésitez-pas à y porter vos contributions. Contactez-moi en cas de difficulté.
L.strappazon (discussion) 23 octobre 2019 à 12:20 (CEST)
À propos des mythèmes
Rédaction de contenus
Comment analyser un document ?
- Transformer le fichier en fichier txt avec codage UTF8. Deux méthodes :
- Avec Word, enregistrer le texte sous format « texte brut » en précisant bien le codage UTF8.
- Avec le logiciel gratuit Notepad++. Une fois installé, clic droit sur le fichier > ouvrir avec Notepad++ > onglet Encodage et si nécessaire convertir en UTF8 puis enregistrer.
- Aller sur la page Oeuvres.
- Sur la page Oeuvres, entrer un code unique pour l’œuvre à étudier, sous le format : Annee Auteur Titre, sans signes de ponctuation et de préférence sans accents. Par exemple : 1837 Marmier Lettres sur l Islande. Ce code ne sert qu'au référencement de l'œuvre, il sera possible plus loin de lui attribuer son titre réel selon les conventions habituelles. Cliquer sur Créer ou modifier.
- Un formulaire s'ouvre, constitué de plusieurs onglets. Renseigner autant d'informations que possible. Enregistrer fréquemment (bouton en bas de page). La page ainsi créée pourra à tout moment être modifiée en cliquant sur Modifier avec formulaire en haut à droite.
- Sous la section « À propos de l'œuvre », le champ « Fichier » sert à désigner le texte à étudier préalablement préparé. S'il a déjà été téléchargé, indiquer ici le titre de sa page. Plus simplement, cliquer sur Importer un fichier pour déposer le fichier et le désigner simultanément. Attention : seules les œuvres du domaines public (dont l'auteur est décédé depuis plus de 70 ans) peuvent être déposées. Ne pas oublier de sauvegarder !
- Sous l'onglet « Préparation avant analyse », décrire brièvement la préparation du fichier avant son dépôt, par exemple : suppression des en-têtes Gutenberg, préface, postface, notes de bas de page, etc. Si une lemmatisation[1] est souhaitée, sélectionner « spacy » ou « snowball ». Ne pas oublier de sauvegarder !
- Sous l'onglet « Contributeurs », indiquer les contributeurs qui ont travaillé à la page de cette œuvre. Ne pas oublier de sauvegarder !
- Une fois les analyses effectuées, elles peuvent être consultées sur la page de l'œuvre sous l'onglet « Analyses ». Les résultats de chaque analyse peuvent être examinés individuellement, ou les résultats peuvent être explorés globalement pour toutes les analyses effectuées sur l'œuvre en cliquant sur Explorer les résultats.
- L'exploration des résultats ouvre un formulaire de recherche multicritères qui permet de filtrer pour ne retenir que les résultats les plus significatifs. Ces résultats peuvent être téléchargés au format csv pour un travail ultérieur, par exemple avec Gephi (https://gephi.org/).
Formules
Définitions :
LemmaMythème = Lemma cherché pour identifier un mythème
LemmaTrace = Lemma trouvé dans l'échantillon
Formules :
CoefRep d'un LemmaTrace = effectif du LemmaTrace dans l'échantillon / effectif du LemmaTrace dans l'œuvre
CoefSurRep (CSR) d'un LemmaTrace = CoefRep X Nombre de LemmaTrace distincts dans l'œuvre / Nombre de LemmaTrace distincts dans l'échantillon.
Cooccasion classique = effectif d'un LemmaTrace / effectif d'un LemmaMythème.
Definitions:
LemmaMythm = Lemma used to identify a mytheme
LemmaTrace = Lemma found in sample
Formulas:
CoefRep of a LemmaTrace = number of LemmaTrace in the sample / number of LemmaTrace in the work
CoefSurRep (CSR) of a LemmaTrace = CoefRep X Number of distinct LemmaTraces in the work / Number of distinct LemmaTraces in the sample.
Classical cooccurence = number of a LemmaTrace / number of a LemmaMytheme.
Probabilité Probabilité d'avoir au moins q mots en commun lors de deux tirages avec remise de n puis p mots dans un ensemble de N mots distincts. Éventuellement on pourra prendre la proba complémentaire en guise de poids
N = Nombre de lemma distincts dans l'oeuvre / N = number of distinct lemmas in the work n = nombre de mots retenus pour le mytheme 1 / n = number of words retained for mytheme 1 p = nombre de mots retenus pour le mytheme 2 / p = number of words retained for mytheme 2 q = nombre de mots retenus à la fois pour mytheme 1 et mytheme 2 / q = number of words retained for both mytheme 1 and mytheme 2
- ↑ Spacy n'est disponible qu'en anglais, allemand, français, espagnol et italien (à vérifier pour les deux derniers). Snowball est disponible en (liste) mais se borne à supprimer les préfixes et suffixes des mots reconnus. Pour cela, il implique une autre façon de travailler et d'interpréter les résultats d'analyse.