Jak extrahovat text z dokumentu PDF
Extrahujte text pomocí programu Acrobat Reader
Krok 1
Otevřete soubor v aplikaci Acrobat Reader. V systému Windows vyberte "Soubor -> Exportovat textový dokument", název dokumentu a uložte jej.
Krok 2
V operačním systému Mac nebo Linux zkopírujte text otevřením nabídky "Zobrazit" a výběrem "Souvislé" nebo "Kontinuální orientace". (První možnost vám poskytne text v jednom sloupci, zatímco druhá možnost bude formátovat text vedle sebe). Přejděte na "Upravit -> Vybrat vše" a pak na "Upravit -> Kopírovat".
Krok 3
Použijte nástroj Vybrat, pokud chcete pouze část textu vyjmout. Klikněte na nástroj "Vybrat text" a poté vyberte požadované informace. V dokumentu s více formáty sloupců budete muset použít první nástroj "Výběr sloupců". Přejděte na "Upravit -> Kopírovat"
Převést PDF na HTML
Krok 1
Používejte Gmail jako zkratku. Připojte soubor PDF k e-mailu a odešlete jej do účtu Gmail. Po otevření e-mailu se vedle přílohy zobrazí řada možností. Vyberte možnost Zobrazit jako HTML a uložte soubor, který se otevře v samostatném okně. Přestože grafiku nebudete moci vidět, soubor HTML zachovává formát textového dokumentu.
Krok 2
Extrahujte a převádějte soubory na příkazovém řádku. Uživatelé systému Linux mohou používat základní převodní příkaz, který změní soubor .pdf na soubor .txt: "Pdftotext filename.pdf". Nezapomeňte změnit název souboru s názvem souboru PDF.
Krok 3
Stáhněte program konverze textu PDF. Existuje řada programů s otevřeným zdrojovým kódem a volných programů, jako je PDFBox a Easy PDF to Text Converter. Mnoho z těchto programů může také převést soubory PDF do HTML.