Supression des commandes LaTeX pour analyse lexicale

Tout ce qui concerne le langage LaTeX et ses variantes. Ce langage est supporté sur le forum via les balises tex.

Modérateur : gdm_tex

Règles du forum
Merci de soigner la rédaction de vos messages et de consulter ce sujet avant de poster. Pensez également à utiliser la fonction recherche du forum.
anonyme74170
Utilisateur confirmé
Utilisateur confirmé
Messages : 79
Inscription : jeudi 21 avril 2016, 11:34

[Résolu] Supression des commandes LaTeX pour analyse lexicale

Message par anonyme74170 »

Bonjour,

je souhaite faire de l’analyse lexicale (text mining) à partir de documents rédigés en LaTeX. Je voudrais supprimer toutes les commandes LaTeX pour obtenir un texte brut, dépourvu dans ce cas des éléments de structures et autres.

1) comment pourrait-on inventorier l'ensemble des commandes utilisées dans le document pour les supprimer ensuite ?
2) ou alors existe-t-il un moyen de le supprimer directement ?

Travailler directement à partir du PDF pose pas mal de problèmes d'où ma volonté actuelle d'aller sur le fichier source.

Merci bien pour vos réponses.
AO
Dernière modification par anonyme74170 le vendredi 12 juillet 2019, 19:54, modifié 1 fois.

rebouxo
Modérateur global
Modérateur global
Messages : 6962
Inscription : mercredi 15 février 2006, 13:18
Localisation : le havre

Re: Supression des commandes LaTeX pour analyse lexicale

Message par rebouxo »

Il y a sous linux un utilitaire qui permet de récupérer le texte d'un pdf : c'est pdftotext.
Olivier
A line is a point that went for a walk. Paul Klee.
Par solidarité, pas de MP.

gigiair
Utilisateur chevronné
Utilisateur chevronné
Messages : 2562
Inscription : samedi 08 juillet 2006, 20:56
Localisation : Saint Bonnet Elvert

Re: Supression des commandes LaTeX pour analyse lexicale

Message par gigiair »

Supprimer directement les commandes latex est possible, mais le résultat risque d'être un peu décevant. Certaines constructions syntaxiques sont complexes et sans les analyser le résultat risque d'être bien éloigné de celui qui est attendu. Il faudrait effectuer le travail d'analyse qui est fait par le compilateur latex. Bon courage...

pdftotext signalé par Olivier est une bonne solution. Il existe une version pour GNU/Linux, une pour MS-Windows et une pour MacIntosh. Voir sur le site http://www.xpdfreader.com/download.html

Une autre solution pourrait être d'utiliser pandoc qui permet les conversions entre presque tous les formats de document, en particulier entre LaTeX et txt.
https://pandoc.org/installing.html
Il peut y avoir des fignolages à effectuer. Remplacer ou supprimer des commandes qui n'ont pas été traitées. Ça peut se faire à coup de recherche et remplacement d'expressions régulières (ou non), ce qui n'est pas forcément toujours évident.
JJR.
LaTeXien migrateur.

anonyme74170
Utilisateur confirmé
Utilisateur confirmé
Messages : 79
Inscription : jeudi 21 avril 2016, 11:34

Re: Supression des commandes LaTeX pour analyse lexicale

Message par anonyme74170 »

Bonjour à vous deux,

meci bien pour ces solutions. J'avais oublié pandoc ... honte à moi ;-)
Bon We.
AO