Extrayez le texte de vos PDF numérisés (scans)
Cet outil applique la reconnaissance optique de caractères (OCR) à vos fichiers PDF pour en extraire le texte, que ce soit un document scanné, une photo de document ou un PDF généré depuis une image. Le résultat est un PDF interrogeable dans lequel vous pouvez sélectionner, copier et rechercher du texte.
Tout le traitement s'effectue localement dans votre navigateur : vos fichiers ne transitent par aucun serveur, aucune donnée n'est envoyée sur internet. L'outil est entièrement gratuit et ne nécessite ni compte, ni inscription, ni installation.
L'OCR PDF est utile dans de nombreuses situations du quotidien : numériser une facture papier pour la rendre cherchable et la transmettre à votre comptable, rendre accessible un contrat signé scanné en permettant la sélection du texte, ou encore extraire le contenu d'une capture d'écran convertie en PDF pour le réutiliser dans un traitement de texte. Il s'adresse aussi bien aux particuliers qui gèrent leurs documents administratifs qu'aux professionnels qui traitent de gros volumes de pièces numérisées.
Un PDF scanné est essentiellement une image photographiée d'un document papier : le texte visible à l'écran n'est pas sélectionnable ni cherchable. Après traitement OCR, une couche de texte est superposée à l'image, ce qui rend le contenu indexable, copiable et traitable par des logiciels de lecture ou de traduction. Le visuel du document reste intact.
Oui, le moteur OCR peut traiter des scans de faible résolution ou des photos prises avec un smartphone, mais la précision de reconnaissance dépend de la qualité de l'image source. Un scan net à 200 dpi ou plus donnera de meilleurs résultats qu'une photo floue ou prise en contre-jour. Si la reconnaissance est imparfaite, améliorer la qualité de scan avant traitement reste la meilleure approche.
L'outil supporte les principales langues latines dont le français, l'anglais, l'espagnol, l'allemand, l'italien et le portugais. D'autres alphabets (cyrillique, arabe, chinois simplifié, japonais) peuvent aussi être disponibles selon la version du moteur intégrée. Sélectionner la bonne langue dans les options améliore sensiblement le taux de reconnaissance, notamment pour les caractères accentués.
Non. Le traitement ajoute uniquement une couche de texte invisible superposée aux images existantes. Le rendu visuel de chaque page, mise en page, polices, images, tableaux, reste strictement identique à l'original. Seule la possibilité de sélectionner et de chercher du texte est ajoutée au fichier.
Oui, c'est l'un des usages les plus importants de l'OCR. Un PDF image n'est pas lu par les technologies d'assistance (lecteurs d'écran, synthèse vocale). En ajoutant une couche de texte reconnu, le document devient accessible aux personnes malvoyantes utilisant des outils comme NVDA, JAWS ou VoiceOver. Pour une accessibilité complète, il peut être utile de compléter ensuite avec une structuration des balises PDF, mais l'OCR constitue la première étape indispensable.