Jak najít skryté stránky na webových stránkách

V roce 2016 společnost Google zpracovala více než 3200 miliard vyhledávacích dotazů, nicméně výsledky, které poskytl vyhledávač, představovaly pouze zlomek dostupného obsahu online. Většina dostupných informací online není dostupná prostřednictvím vyhledávačů, takže je nutné používat speciální nástroje nebo vyhledávací webové stránky k nalezení těchto skrytých stránek. Tato skrytá informace, známá jako hluboký web, představuje až 5000 krát více, než je dostupná pomocí typických vyhledávacích technik.

Typy skrytého obsahu

Skryté stránky webových stránek jsou rozděleny do kategorií, které popisují, proč zůstávají pro vyhledávače neviditelné.

Některé představují dynamický obsah, který je prezentován pouze tehdy, když návštěvník vydá na webových stránkách konkrétní požadavek, který používá kód založený na databázi, aby prezentoval konkrétní výsledky. Například tyto stránky mohou obsahovat výsledky nákupu založené na specifických kombinacích kritérií produktu. Vyhledávače nejsou určeny pro sledování a ukládání informací v těchto databázích. Chcete-li najít tyto stránky, měli byste jít na webové stránky a hledat konkrétní informace, které hledáte, nebo použít databázově orientovanou vyhledávací službu, jako je Bright Planet .

Některé stránky nemají odkazy, které je propojí s vyhledávacími zdroji. V této kategorii mohou být zahrnuty dočasné zdroje, např. Více verzí webů s nedostatečným rozvojem, stejně jako špatně navržené webové stránky. Například pokud někdo vytvořil webovou stránku a nahrál ji na server webových stránek, ale na aktuální stránky webu nepřidával odkaz, nikdo by nevěděl, že je tam, včetně vyhledávačů.

Stále více stránek vyžaduje přihlašovací údaje pro přihlášení nebo přístup, jako jsou například stránky pro odběr. Weboví designéři označují stránky a sekce stránek za to, že se nacházejí mimo hranice vyhledávačů, čímž účinně odstraňují jejich umístění konvenčními prostředky. Chcete-li získat přístup k těmto stránkám, je obvykle nutné vytvořit účet dříve, než jim bude uděleno oprávnění k přístupu.

Použití souborů robots.txt

Vyhledávače procházejí stránky webové stránky a indexují jejich obsah, aby se mohly objevit v reakci na dotazy. Když chce vlastník webových stránek vyloučit některé části své domény z těchto indexovacích postupů, přidá adresy těchto adresářů nebo stránek do speciálního textového souboru nazvaného robots.txt, uloženého v kořenovém adresáři jeho webu. Vzhledem k tomu, že většina webových stránek obsahuje soubor robota bez ohledu na to, zda přidává vyloučení, použijte předvídatelné jméno dokumentu k zobrazení jeho obsahu.

Pokud zadáte "[název domény] / robots.txt" bez uvozovek v adresním řádku prohlížeče nahrazujícím "[název domény]" pro adresu webu, obsah souboru robotu se často objeví v v okně prohlížeče po stisknutí klávesy "Enter". Položky předcházející "zakázat" nebo "nofollow" představují části webu, které zůstávají nepřístupné prostřednictvím vyhledávače.

Udělejte to sami: hackování webových stránek

Kromě souborů robot.txt můžete často najít skrytý obsah zadáním webových adres pro konkrétní stránky a složky ve webovém prohlížeči. Například, pokud jste se dívali na webové stránky umělce a všimli jste si, že každá stránka používala stejnou konvenci pojmenování - například gallery1.html, gallery2.html, gallery4.html - pak můžete najít skrytou galerii zadáním stránky "gallery3.html "ve webovém prohlížeči.

Podobně, pokud zjistíte, že webové stránky používají složky k uspořádání stránek - například example.com/content/page1.html, s adresářem "/ content" - pak můžete vidět samotnou složku zadáním na webových stránkách a bez stránky, jako například "example.com/content/" ve webovém prohlížeči. Pokud přístup do složky nebyl deaktivován, může být možné procházet stránkami, které obsahuje, stejně jako prostřednictvím stránek libovolné podsložky, abyste mohli najít skrytý obsah.

Tento článek byl vytvořen s pomocí histillworks.com