Publicité
Si vous souhaitez convertir tout texte imprimé en texte numérique que vous pouvez copier, coller, modifier et rechercher, vous devrez utiliser des scanners à reconnaissance optique de caractères (OCR).
Lorsque vous choisissez de numériser ou de prendre une photo d'un document, celui-ci sera enregistré dans un format tel que JPEG ou PDF. Logiciel OCR peut alors reconnaître les lettres et les chiffres contenus dans ces documents et les convertir en PDF consultable 4 méthodes pour créer et éditer des fichiers PDF gratuitementParmi tous les types de fichiers courants dans notre monde informatique, le PDF est probablement l'un des plus restrictifs, tout en étant accessible à tous (principalement pour lire) ... Lire la suite ou dans un fichier que vous pouvez modifier dans des programmes comme Microsoft Word.
Le problème est que certains scanners OCR fonctionnent beaucoup mieux que d'autres, le meilleur étant assez lourd sur le portefeuille.
Omnipage18 par exemple, coûte 150 $, mais est particulièrement bon pour reconnaître différentes langues.
Adobe Acrobat Pro DC coûte 400 $, mais a une précision incroyable. ABBYY FineReader coûte 150 $, mais est fantastique pour convertir des documents tels que des magazines et des brochures en texte consultable. Nous testerons l'offre en ligne d'ABBYY plus loin dans cet article.Cependant, si vous recherchez des alternatives gratuites, vous pouvez Télécharger et utiliser sur Windows ou OS X, vous devez essayez ces outils OCR Les 5 meilleurs outils OCR pour extraire du texte à partir d'imagesLorsque vous avez des rames de papier, comment obtenez-vous tout ce texte imprimé converti en quelque chose qu'un programme numérique pourra reconnaître et indexer? Gardez un bon logiciel OCR à proximité. Lire la suite . Mais si vous préférez utiliser un logiciel gratuit, en ligne Outil OCR, continuez à lire, car nous avons essayé les meilleurs, avec les résultats ci-dessous.
Le test
Il semble que la plupart des gens utilisent désormais leur smartphones pour faire leur numérisation pour eux Numérisez et gérez vos reçus, économisez de l'espace, du papier et du tempsLes reçus papier sont facilement perdus et difficiles à trouver lorsque vous en avez le plus besoin. Heureusement, le passage au numérique résout ces deux problèmes. Lire la suite , J'ai décidé d'utiliser Application Scernable d'Evernote (Gratuit sur iOS et Android). J'ai scanné la première page de Richard Dawkin Montée d'escalade improbable, pour voir quels résultats nous pourrions obtenir avec un formatage très basique. J'ai également scanné une page de Tim Ferriss Le chef de 4 heures pour essayer les scanners avec un formatage légèrement plus compliqué. J'ai enregistré chacun de ces fichiers au format PDF.
Ces documents ont ensuite été passés à travers certains des meilleurs outils d'OCR en ligne supposés pour voir dans quelle mesure ils se sont comportés.
OCR en ligne gratuit [n'est plus disponible]
Heureusement, aucune inscription n'est requise pour utiliser l'OCR en ligne gratuit. Et j'ai été doublement impressionné quand j'ai vu leur revendication de conserver la mise en forme et la mise en page de mon document.
Le site prétend pouvoir prendre en charge PDF, GIF, BMP, JPEG, TIFF et PNG en entrée. Les sorties peuvent être DOC, un document texte PDF, RTF et TXT. Malheureusement, je n'ai pas pu savoir s'ils avaient une limite de taille de fichier.
Document de base au format PDF
Converti absolument parfaitement. Il n'y a pas grand chose à dire! Nous partons pour un très bon départ.
Document de base au DOC
Les mots réels semblent s'être parfaitement convertis, à part le «ount» de «Mount Rushmore» qui est en quelque sorte devenu AWOL. Le formatage est une autre histoire, cependant. De nombreuses virgules ont été remplacées par des traits de soulignement et des espaces aléatoires ont été insérés à certains endroits du document. Quand vous verrez plus tard comment le logiciel premium s'est comporté dans ce test, ce n'est pas un mauvais effort du tout.
Document complexe au format PDF
La conversion du document a pris 120 secondes! Une fois terminé, tout le texte avait été converti avec une précision d'environ 95%, bien que le texte dans la boîte séparée en haut à droite de la page ne soit pas consultable. Quelques autres caractères dans le PDF étaient également incorrects.
Document complexe au DOC
Cette fois, la conversion n'a pris que 10 secondes, le texte étant à nouveau converti avec une précision d'environ 95%. Il y a eu des problèmes d'espacement étranges, et le logiciel a eu du mal à convertir la police en haut à droite du document, et a raté quelques caractères ici et là.
Verdict
Si vous souhaitez convertir des documents au format simple en PDF, c'est un outil fantastique. En termes de conversion au format DOC, les résultats n’ont rien d’intéressant.
i2OCR fait des affirmations impressionnantes. L'outil reconnaît plus de 60 langues, peut gérer les dispositions multi-colonnes (en supprimant le formatage), n'a pas de limites de taille de fichier, peut convertir les fichiers téléchargés et des URL. Et vous n'avez pas besoin de vous inscrire pour utiliser cet outil non plus.
Le service fonctionne en extrayant simplement le texte de votre image, puis en sortant du texte non formaté. Vous pouvez corriger rapidement toute erreur dans la vue côte à côte, avant de copier le texte dans d'autres programmes ou de le télécharger au format DOC, PDF ou HTML.
Remarque: lorsque j'ai essayé de télécharger mes documents PDF, ceux-ci ont été rejetés par i2OCR, j'ai donc dû les convertir en JPEG (en prenant une capture d'écran d'eux, puis en téléchargeant les fichiers).
Document de base en texte brut
En raison de la façon dont cet outil fonctionne, tout le formatage est perdu, bien que la conversion de l'image au texte soit presque parfaite. Il y avait quelques petites erreurs telles que l'espacement des paragraphes, et certaines virgules ont été remplacées par des points, mais ce sont de petits inconvénients.
Document complexe en texte brut
La majorité du texte a été convertie sans trop d'erreurs, à part le titre et la recette en haut à droite, ce qui était illisible pour cet outil. La façon dont les colonnes ont été converties en texte brut était loin d'être idéale. Si vous voulez rendre cette conversion réalisable, il faudrait beaucoup de temps pour réorganiser les lignes en phrases cohérentes.
Verdict
Pour les documents de base, i2OCR fonctionne très bien. La possibilité de modifier le texte avant le téléchargement est également une très bonne touche. Pour les documents plus complexes cependant, la conversion est encore assez précise, mais la façon dont le texte est sorti ne vous facilitera pas la vie.
L'OCR en ligne prend actuellement en charge 46 langues différentes et peut convertir PDF, JPG, BMP, TIFF et GIF au format Word, Excel ou Texte brut. Le site affirme que «les documents convertis ressemblent exactement à l'original - tableaux, colonnes et graphiques».
La version que vous pouvez utiliser sans vous inscrire vous permet de convertir jusqu'à 15 images par heure (limite de 5 Mo). Si vous vous inscrivez pour un compte, vous pouvez acheter plus de pages au-dessus de cette limite, tout en étant également en mesure de convertir des documents de plusieurs pages et des archives ZIP.
Document de base au DOC
Le document de base parfaitement converti en dehors du chiffre romain je ne pas être ramassé. Comme le site l'avait promis, la mise en forme était exactement comme dans le livre. Bravo à cet outil.
Document complexe au DOC
Après avoir été déçu par les outils d'OCR précédents dans la conversion du document complexe, j'ai été massivement impressionné par l'OCR en ligne. La disposition était presque parfaite, comme vous pouvez le voir ci-dessus. Encore une fois cependant, la recette n'a pas été bien reprise, mais toute autre erreur mineure a été négligeable.
Verdict
Résultats absolument fantastiques de l'OCR en ligne. Le seul inconvénient que je vois, c'est qu'il n'y a aucun moyen de télécharger les documents convertis au format PDF car les formats de sortie mentionnés incluent DOCX, XLSX et TXT uniquement.
Comme mentionné précédemment, ABBYY est l'un des leaders du marché des logiciels d'OCR, coûtant environ 150 $ pour leur programme complet et téléchargeable. Ils offrent un Essai gratuit de 10 pages pour leur outil en ligne, cependant (inscription requise). Pour un abonnement de 5 $, leur outil en ligne vous permettra de convertir 200 pages chaque mois.
Les fichiers acceptés peuvent atteindre 100 Mo, dans l'un de ces formats: PDF, JPG, JPEG, TIF, TIFF, PCX, DCX, BMP et PNG. ABBYY reconnaît également près de 200 langues. Les sorties sont particulièrement impressionnantes, avec un choix entre DOCX, XLSX, RTF, TXT, PPTX, ODT, PDF, FB2 et EPUB.
Vous pouvez même essayer quelques fonctionnalités BETA pendant votre essai. La première est la possibilité de traduire votre document dans une autre langue. L'autre consiste à exporter votre document converti vers votre compte de stockage cloud, que ce soit Dropbox, Google Drive, Evernote, Microsoft OneDrive ou Box.
Document de base vers DOCX
Les résultats globaux étaient bons, mais pas étonnants étant donné qu'il s'agit d'un produit haut de gamme. Plusieurs virgules et points ont été échangés, plusieurs virgules inversées ont été remplacées par un astérisque, quelques lettres majuscules manquaient et un mot (littéraliste) a été mal orthographié.
Document complexe vers DOCX
Une fois converti, il y avait très peu de défauts dans le texte du document (à part l'OCR qui se débattait à nouveau avec la police de cette recette!), Mais la mise en forme laissait beaucoup à désirer.
Les trois colonnes occupaient en quelque sorte deux pages, la colonne centrale seulement apparaissant sur la deuxième page. Si vous vouliez réellement faire quoi que ce soit avec ce document converti, vous finiriez par vous arracher les cheveux.
Document de base au format PDF
Lors de l'examen du PDF converti, je n'ai trouvé aucun défaut. Peut-être avons-nous trouvé où ABBYY excelle. Des résultats fantastiques.
Document complexe au format PDF
Encore une fois, je n'ai trouvé aucune erreur dans ce fichier converti. ABBYY sait évidemment très bien convertir en PDF.
Verdict
Si vous êtes satisfait de payer quelques dollars, la conversion au format PDF semble fonctionner phénoménalement bien avec ce service et capable de synchroniser les fichiers convertis sur votre stockage cloud est particulièrement utile si vous numérisez un grand volume de documents. Comme pour les autres options, ABBYY n'a toujours pas compris comment convertir parfaitement des documents en DOC pour une édition facile.
Le résultat final
Si, comme la plupart des gens, vous cherchez simplement à numériser quelques articles de magazine et quelques factures de ménage, vous n'aurez pas besoin de modifier ces documents. Par conséquent, la conversion directe en PDF vous conviendra, car vous pourrez toujours rechercher ces documents. Pour cela, l'OCR en ligne gratuit était certainement le meilleur outil gratuit que nous ayons testé. Cela étant dit, si vous êtes prêt à payer 5 $ par mois pour une quasi-perfection, FineReader d'ABBYY en ligne était légèrement plus précis.
En ce qui concerne la conversion de documents au format DOC, nous n'avons pas réussi à trouver de solution parfaite, mais de loin les meilleurs résultats sont venus de OCR en ligne. La conversion n'était pas parfaite, mais l'intégrité de la mise en forme a été largement conservée et les erreurs étaient négligeables. Lorsque nous comparons ces résultats à l'offre «premium» d'ABBYY, vous ne pouvez pas vous empêcher d'être massivement impressionné.
Nous n'avons pas inclus Fonctionnalités OCR de Google Drive dans ce poste; un peu pour la polyvalence de Google, mais plus pour le fait que nous voulions tester quelques autres services OCR en ligne gratuits.
À vous: Quels autres outils d'OCR en ligne recommanderiez-vous à nos lecteurs? Et lequel avez-vous essayé de ne plus jamais utiliser?
Rob Nightingale est diplômé en philosophie de l'Université de York, Royaume-Uni. Il a travaillé en tant que responsable des médias sociaux et consultant pendant plus de cinq ans, tout en donnant des ateliers dans plusieurs pays. Au cours des deux dernières années, Rob a également été rédacteur technologique et est le responsable des médias sociaux de MakeUseOf et l'éditeur de la newsletter. Vous le trouverez généralement en train de…