Si vous êtes étudiant ou que votre travail implique de travailler avec beaucoup d'images et de PDF, vous auriez, à un moment donné, ressenti le besoin d'extraire du texte d'une image ou d'un document.
Heureusement, l'extraction de texte rend cela possible. Et il existe plusieurs outils que vous pouvez utiliser pour ce faire. gImageReader est l'un des nombreux outils. Il est gratuit et fonctionne avec les fichiers image et les documents PDF.
Plongeons-nous pour découvrir gImageReader en détail et voyons comment vous pouvez l'utiliser pour extraire du texte à partir d'images et de PDF.
Qu'est-ce que gImageReader ?
gImageReader est une application qui vous permet d'extraire du texte à partir d'images et de PDF sous Linux. Il s'agit essentiellement d'une interface graphique ou frontale pour le moteur OCR Tesseract, un Open source moteur développé par Hewlett-Packard qui est considéré comme l'un des meilleurs moteurs OCR disponibles.
Avec gImageReader, vous pouvez extraire facilement et assez précisément du texte à partir d'images ou de documents PDF en quelques clics simples. Vous pouvez ensuite exporter le texte extrait vers un fichier texte ou PDF pour une utilisation ultérieure.
Fonctionnalités de gImageReader
gImageReader contient les fonctionnalités suivantes :
- Importez des documents PDF et des images à partir de différentes sources (disque, périphériques de numérisation, presse-papiers et capture d'écran)
- Traiter par lots des images ou des documents, c'est-à-dire extraire du texte de plusieurs images ou documents à la fois
- Reconnaître les extraits de texte comme du texte brut ou des documents hOCR
- Correcteur orthographique intégré
- Détection automatique de la zone de texte
- Édition de base d'images/documents
- Enregistrer la sortie sous forme de fichier texte
Comment installer gImageReader sous Linux
gImageReader est disponible sur la plupart des principales distributions Linux. Mais avant de procéder à son installation, vous devez installer le moteur Tesseract OCR sur votre système.
Pour ce faire, ouvrez le Gestionnaire de logiciels sur votre système et recherchez tesseract. Lorsqu'il renvoie une liste de résultats, installez le tesseract-ocr et tesseract-ocr-fra paquets. Vous pouvez également utiliser des gestionnaires de packages en ligne de commande pour installer le package si vous êtes plus à l'aise avec le terminal.
Après cela, consultez les instructions d'installation dans les sections suivantes pour installer gImageReader sur votre ordinateur.
Si vous êtes sur Debian ou Ubuntu, ouvrez le terminal et exécutez les commandes ci-dessous pour installer gImageReader :
sudo add-apt-repository ppa: sandromani/gimagereader
sudo apt-obtenir mettre à jour
sudo apt installer gimagereader
Sur Fedora, CentOS ou Red Hat Enterprise Linux (RHEL) :
sudo dnf installer gimagereader-qt
Sur Arch Linux ou Manjaro :
sudo pacman -S gimagereader
Les utilisateurs d'openSUSE peuvent installer gImageReader en utilisant :
zyppeur sudo installer gimagereader
Si vous utilisez une autre distribution Linux, vous pouvez créer gImageReader à partir de la source en suivant les instructions sur à GitHub de gImageReader.
Comment utiliser gImageReader sous Linux
gImageReader est assez facile à utiliser et fonctionne avec toutes sortes de fichiers image ainsi que des documents PDF. Suivez les instructions ci-dessous pour extraire du texte à partir d'images ou de fichiers PDF sous Linux.
Ouvrez le menu des applications, recherchez gImageReader, et lancez l'application. Frappez le Maximiser dans la fenêtre gImageReader pour l'ouvrir en mode plein écran.
Maintenant, cliquez sur le Ajouter des images dans le volet de gauche sous la barre d'outils et utilisez le navigateur de fichiers pour sélectionner la ou les images ou le ou les PDF dont vous souhaitez extraire le texte.
Cliquez sur D'accord pour importer l'image (s) ou PDF (s) à gImageReader. Ou, si vous voulez extraire du texte de ce qui est affiché à l'écran, cliquez sur le menu déroulant à côté de Ajouter des images bouton et sélectionnez Prendre une capture d'écran. gImageReader prendra une capture d'écran du contenu de l'écran.
Une fois que vous avez ajouté l'image à gImageReader, cliquez sur le Basculer le volet de sortie bouton (un avec l'icône du bloc-notes) pour faire apparaître le volet de sortie. C'est là que le texte que vous extrayez des images ou des PDF apparaît.
Selon la façon dont vous souhaitez procéder, vous avez maintenant la possibilité d'identifier le texte dans l'image ou le PDF automatiquement ou manuellement. Pour le faire automatiquement, cliquez sur le Disposition de détection automatique, et il mettra en surbrillance tous les blocs de texte dans l'image ou le document PDF sélectionné.
Après cela, appuyez sur Reconnaître la sélection > Page actuelle pour commencer le processus d'extraction de texte.
Alternativement, pour sélectionner le texte manuellement, survolez le texte que vous souhaitez extraire et, à l'aide du réticule, tracez un cadre autour de la zone d'où vous souhaitez extraire le texte. Ensuite, appuyez sur le Reconnaître la sélection bouton pour continuer.
S'il s'agit d'un document PDF et que vous souhaitez extraire du texte de différentes pages, appuyez sur le Plus (+) pour retourner les pages.
Pour revenir en arrière, appuyez sur le Moins (-) bouton. Et puis, sélectionnez le texte que vous voulez extraire et appuyez sur le Reconnaître la sélection bouton pour l'extraire.
Bien que rare, il peut arriver que gImageReader renvoie le texte extrait dans une langue autre que l'anglais. Lorsque cela se produit, appuyez simplement sur le bouton déroulant à côté Reconnaître la sélection et sélectionnez l'une des options d'anglais.
Enfin, pour enregistrer le texte extrait, cliquez sur le Enregistrer la sortie bouton. Cela fera apparaître la fenêtre Enregistrer. Ici, donnez un nom au fichier et appuyez sur D'accord.
Que pouvez-vous faire d'autre avec gImageReader ?
Comme mentionné précédemment, gImageReader vous donne également la possibilité de modifier certains aspects des images ou des documents importés, comme leur luminosité, leur contraste et leur résolution. De plus, vous pouvez également inverser les couleurs ou faire pivoter les images ou les documents, si nécessaire.
La plupart de ces options peuvent s'avérer utiles lorsque le texte d'une image ou d'un document n'est pas lisible par gImageReader et empêche donc l'outil de reconnaître le texte.
Pour accéder à l'une de ces options d'édition, cliquez sur le Commandes d'image, et il révélera une mini barre d'outils sous la barre d'outils principale. À partir de là, sélectionnez les boutons appropriés pour effectuer l'opération d'édition souhaitée sur l'image ou le document.
L'extraction de texte sur Linux simplifiée avec gImageReader
L'extraction de texte nécessite souvent le bon outil: un outil qui utilise un moteur OCR fiable et précis qui lui permet d'identifier efficacement le texte d'une image ou d'un document, afin que vous puissiez l'extraire efficacement sans aucune problèmes.
gImageReader y parvient très bien, grâce au moteur Tesseract OCR qu'il utilise en arrière-plan. Compte tenu de sa facilité d'utilisation, gImageReader est sans aucun doute l'un des meilleurs outils d'extraction de texte disponibles pour Linux.
Alternativement, si vous cherchez une solution plus simple, vous pouvez consulter TextSnatcher, qui est rapide et assez facile à utiliser.