Jak extrahovat text z dokumentu PDF

Může být velmi frustrující pokusit se extrahovat text ze souboru PDF, který ho použije v jiné aplikaci.

Extrahujte text pomocí programu Acrobat Reader

Krok 1

Otevřete soubor v aplikaci Acrobat Reader. V systému Windows vyberte "Soubor -> Exportovat textový dokument", název dokumentu a uložte jej.

Krok 2

V operačním systému Mac nebo Linux zkopírujte text otevřením nabídky "Zobrazit" a výběrem "Souvislé" nebo "Kontinuální orientace". (První možnost vám poskytne text v jednom sloupci, zatímco druhá možnost bude formátovat text vedle sebe). Přejděte na "Upravit -> Vybrat vše" a pak na "Upravit -> Kopírovat".

Krok 3

Použijte nástroj Vybrat, pokud chcete pouze část textu vyjmout. Klikněte na nástroj "Vybrat text" a poté vyberte požadované informace. V dokumentu s více formáty sloupců budete muset použít první nástroj "Výběr sloupců". Přejděte na "Upravit -> Kopírovat"

Převést PDF na HTML

Krok 1

Používejte Gmail jako zkratku. Připojte soubor PDF k e-mailu a odešlete jej do účtu Gmail. Po otevření e-mailu se vedle přílohy zobrazí řada možností. Vyberte možnost Zobrazit jako HTML a uložte soubor, který se otevře v samostatném okně. Přestože grafiku nebudete moci vidět, soubor HTML zachovává formát textového dokumentu.

Krok 2

Extrahujte a převádějte soubory na příkazovém řádku. Uživatelé systému Linux mohou používat základní převodní příkaz, který změní soubor .pdf na soubor .txt: "Pdftotext filename.pdf". Nezapomeňte změnit název souboru s názvem souboru PDF.

Krok 3

Stáhněte program konverze textu PDF. Existuje řada programů s otevřeným zdrojovým kódem a volných programů, jako je PDFBox a Easy PDF to Text Converter. Mnoho z těchto programů může také převést soubory PDF do HTML.