Après le site, il se passe quoi ?

Nous avons privilégié le travail sur le résultat final après l’étape #7. L’étape #8, #9 et #10 étant pour nous le peaufinage de notre script et la création du site, nous n’avons pas présenter cela sous forme d’article dans le blog. Cependant, nous n’avons pas publié quelque chose sur le Trameur, mais il fera l’objet d’un article dans les jours qui viennent.

Pour l’heure, nous avons pensé qu’il serait utile, après moult péripéties surmontées, de partager nos difficultés sur le blog en un seul article, dans le but d’aider les futurs étudiants en TAL qui auraient peut-être à effectuer le même travail. Au cas où d’autres personnes rencontreraient le(s) même(s) problème(s), cela pourrait leur faire gagner un temps précieux.

Séance #6 Création d’une nouvelle colonne dans le tableau : DUMP

***Nous tenons à nous excuser pour avoir laissé un peu de côté notre blog ces derniers temps. Mais attention, ne pas avoir publié ne signifie pas que nous n’avons pas travaillé. Malheureusement, beaucoup de problèmes accumulés mais ne nous attardons pas là-dessus, nous allons tenter de publier rapidement le reste de nos travaux ! ***

Dans ce nouvel article, nous allons créer une nouvelle colonne dans notre tableau ! Nous allons à présent dumper les pages que nous avons aspirées précédemment, c’est-à-dire que nous allons stocker le contenu des pages aspirées dans un fichier au format texte brut. Mais l’encodage de ces pages nous importe, il faut que ce soit de l’UTF-8 alors si l’encodage est celui-ci, on aspire la page, sinon, on laisse en suspens pour le moment pour s’occuper du changement d’encodage à la prochaine étape. Voici ci-dessous le nouveau script qui permet d’engendrer la nouvelle colonne :

capture4_script_s6

capture5_script_s6

capture6_script_s6

Un peu de changement dans le script, nous avons désormais fait en sorte que les tableaux soient créés à l’aide de boucles imbriquées. Grâce à cela, nous n’avons plus besoin de créer un tableau pour chaque fichier d’URLs. Chaque fichier d’URLs rencontré dans le fichier de paramètres va engendrer un tableau, ce qui réduit de beaucoup la longueur du script. Nous avons aussi modifié le fichier de paramètres afin de pouvoir prendre tous les fichiers d’URLs présents directement depuis le répertoire. De plus, nous avons indenté les différentes boucles et conditions pour avoir un script plus clair et plus facile à lire. Les commentaires aussi sont plus lisibles pour qu’on voie tout de suite ce que fait le script à telle étape.

Donc nous savons désormais faire un tableau HTML qui aspire des pages web, qui les numérote, qui contient ces pages dans un dossier et qui stocke le contenu de ces pages dans des fichiers en fonction de l’encodage que nous souhaitons (ici de l’UTF-8).

Voyons le résultat en lançant le script dans le terminal de commandes :

capture1_script_s6

On peut s’apercevoir que le tableau a bien été créé tel qu’on l’avait nommé dans notre fichier de paramètres :

capture3_script_s6capture2_script_s6

Nous pouvons maintenant regarder le contenu de notre tableau HTML en le lançant dans le navigateur :

capture7_script_s6

capture8_script_s6

capture9_script_s6

capture10_script_s6

capture11_script_s6

capture12_script_s6

capture13_script_s6

capture14_script_s6

La prochaine publication concernera la prise en charge des pages non-encodées en utf-8. On vous expliquera ça plus en détails dans le prochain article !

Séance #5 Création d’une nouvelle colonne dans le tableau : PAGES ASPIREES

Toujours activement en recherche des derniers URLs en japonais, nous continuons tout de même à publier nos scripts en utilisant nos URLs en français et en anlgais.

On va maintenant ajouter une nouvelle colonne aux tableaux. Cette colonne contiendra les pages web qu’on va aspirer. On va pouvoir aspirer les pages grâce à la commande « wget ». Cette commande permet de sauvegarder localement des URLs.
Le problème du script précédent était qu’il fallait réécrire tout les chemins pour accéder aux fichiers (qu’on veuille les utiliser ou bien les créer). On a donc créé un nouveau fichier qui permet de ne pas réécrire tous ces chemins à chaque fois qu’on démarre le script. Il suffit, grâce à un chevron unique qui redirige le flux entrant, d’ajouter le fichier qui contient les différents chemins.

Voici tout d’abord le script qui permet d’aspirer les pages web :

capture1_script_s5

capture2_script_s5

On peut voir grâce à la capture ci-dessous comment les paramètres sont lus par redirection du flux entrant.

capture3_script_s5

On regarde ce que contient le fichier de paramètres grâce à la commande « cat » :

capture4_script_s5

Ensuite, on lance le script et on regarde le résultat. On vérifie d’abord que les pages ont bien été aspirées et qu’elles ont été enregistrées dans le bon répertoire tel qu’on l’a écrit dans le script.

capture5_script_s5

Les pages ayant été aspirées correctement au bon endroit, on regarde le résultat de la page HTML générée. On tape la commande « ls TABLEAUX/ » pour vérifier que le fichier a bien été créé :

capture6_script_s5

Et on lance ensuite la page dans le navigateur pour voir les tableaux  :

capture7_script_s5

capture8_script_s5

capture9_script_s5

capture10_script_s5capture11_script_s5capture12_script_s5

Séance #4 La recherche des URLs et la création du premier tableau

Nous sommes dans une phase du projet où nous sommes censées avoir trouvé toutes nos URLs. Malheureusement, la tâche s’avère un peu plus compliquée en ce qui concerne le japonais.

En effet, pour le français, aucun problème à l’horizon, il n’y a pas de barrière au niveau de la langue. En anglais, nous avons pu nous faire aider par une personne ayant fait un mémoire sur les maladies mentales aux Etats-Unis. Grâce à elle, nous avons pu mieux comprendre ce qu’est la schizophrénie et donc récolter nos URLs plus facilement en ayant des sites fiables (la plupart étant des sites gouvernementaux). En japonais, nous avons procédé de la même manière, le tout étant d’avoir des URLs qui soient un minimum exploitables. Mais cela reste tout de même difficile, le vocabulaire employé n’étant pas forcément du vocabulaire que nous maîtrisons et la société japonaise n’aborde pas forcément cette maladie de la même manière que les occidentaux. Donc, nous avons la totalité des URLs en français et en anglais et environ un tiers des URLs en japonais. L’aide de ces deux personnes a été très précieuse et nous a permis de faire un grand pas en avant dans nos recherches.

Ci-dessous se trouve les tableaux de nos URLs en français et en anglais. Ces tableaux sont formés de deux colonnes dont la première contient la numérotation des URLs et la seconde les URLs.

Voici tout d’abord le script :

capture1_script_s4

capture2_script_s4

Ensuite, on regarde ce que contient le répertoire TABLEAUX. On se rend compte (ci-dessous), que le répertoire ne contient rien. On tape la commande pour lancer le script afin de créer les tableaux. On regarde à nouveau avec la commande « ls » et on s’aperçoit que le fichier HTML est créé.

capture3_script_s4

On regarde maintenant le résultat :

capture4_script_s4

capture5_script_s4

capture6_script_s4

capture7_script_s4

capture8_script_s4

 

Présentation

Bonjour à tous et bienvenue !

Nous avons créé ce blog dans le cadre du cours Programmation et Projet encadré de 1ère année de Master Ingénierie Linguistique. Ce blog sera un suivi de notre travail durant le semestre.

Dans le cadre de ce cours, nous avons choisi la vie multilingue du mot « schizophrénie » en français, anglais et japonais. Plus précisément, nous aimerions explorer d’un côté, l’aspect médical de la maladie en comparant les différentes manières de la traiter en France, aux États-Unis et au Japon et d’un autre côté, l’aspect sociologique en essayant de savoir s’il y a un décalage entre ce que pensent les gens de la schizophrénie et la réalité. Pour le second point, nous savons déjà que cela pourrait s’avérer difficile au niveau de la recherche des URLs car cela implique des recherches essentiellement sur des commentaires ou des forums. Pour débuter, on se base sur les moteurs de recherche pour trouver des URLs en tapant « schizophrénie » dans les trois langues.

Prochaine étape, publication d’un article contenant la liste des URLs trouvées !

A bientôt !