Deep web/invisible web

10 marca 2020

(invisible web – niewidzialna sieć, hidden web – ukryta sieć), ukryty internet/ głęboka sieć – obszar światowej sieci Internet (World Wide Web), który nie jest indeksowany, a więc także nie jest wyszukiwany przez standardowe wyszukiwarki internetowe (ang. search engines), ukryty przed nimi np. poprzez szyfrowanie; zbiór nieindeksowanych stron internetowych.

Termin invisible web (niewidzialna sieć) po raz pierwszy został użyty przez J. Ellsworth w 1994 r. na określenie tych zasobów sieciowych, których wyszukiwarki nie mogą lub nie chcą indeksować i które ostatecznie stają się dla użytkownika niewidzialne i niedostępne. Dużo nowego w rozwój badań nad zagadnieniem wniósł G. Price – bibliotekarz i obecny szef Online Information Resources w serwisie Ask.com. Stworzył on bezpłatną, dostępną online listę zawierającą wykaz firm, wybitnych ludzi i ich zawodowych osiągnięć prowadzoną od 1998 r. Za pośrednictwem jego serwisu Direct Search można dotrzeć do wielu zasobów ukrytego internetu. Co ważne, ok. 95% deep web stanowią zasoby, do których dostęp jest bezpłatny, a blisko połowa to specjalistyczne, dziedzinowe bazy danych – niezwykle cenne w poszukiwaniach bibliograficznych.

Deep web to pojęcie złożone. Można w nim wyróżnić dwie kategorie zasobów.

Pierwsza kategoria to każda informacja trudna do uzyskania poprzez standardowe wyszukiwanie. Obejmuje on posty na Twitterze lub Facebooku, schowane linki lub rekordy, które znajdują się tak daleko w standardowych wynikach wyszukiwania, że typowi użytkownicy nigdy ich nie znajdą.
Druga kategoria to ogromne repozytorium informacji, które nie są dostępne dla standardowych wyszukiwarek. Składa się ono z treści znalezionych na stronach internetowych, bazach danych i innych źródłach. Często jest dostępne tylko za pośrednictwem niestandardowego zapytania skierowanego do poszczególnych stron internetowych, którego nie można osiągnąć za pomocą prostego wyszukiwania powierzchniowego. Deep web nie znajduje się w jednym miejscu. Składa się zarówno z treści ustrukturyzowanych, jak i niestrukturalnych, których ogromna ilość znajduje się w bazach danych.

W tej chwili jednak najważniejsze jest to, że zawartość głębokiej sieci jest ogromna – jak szacuje firma Bright Planet, ok. 500 razy większa niż ta widoczna dla konwencjonalnych wyszukiwarek – i o znacznie wyższej jakości. Ukryty internet w dużej mierze składa się z niezwykle cennych i użytecznych źródeł informacji praktycznej i naukowej. Jak podkreśla N. Pamuła-Cieślak, mają one tę przewagę nad dokumentami „widzialnego” internetu(ang. surface web), że w dużej części pozostają pod stałą kontrolą merytoryczną, faktograficzną, językową oraz bibliograficzną. Dzieje się tak dlatego, że powstają z inicjatywy lub przy współudziale ekspertów dziedzinowych. Gwarantuje to użytkownikom wiarygodność zdobytych w ten sposób informacji i danych. Aby dotrzeć do zasobów ukrytego internetu, należy zastosować pewne strategie wyszukiwawcze – nie wystarczy tu skorzystać z jednego prostego narzędzia, jakim jest wyszukiwarka. Należy wiedzieć, że są one ściśle związane z rodzajem poszukiwanych źródeł.

Korzystając z internetu, mamy do dyspozycji około 1,5 miliarda zindeksowanych stron internetowych. Ta liczba robi wrażenie, ale to tylko wierzchołek góry lodowej – ok. 3–4% całej sieci. Reszta internetu kryje się „pod wodą”, na dynamicznie generowanych stronach, których nie można znaleźć poprzez standardowe wyszukiwarki. Są one dla nich po prostu niewidoczne, ponieważ stanowią sieć niezindeksowaną. Widoczne zasoby World Wide Web stanowią jedynie od 6 do 10% całego internetu. Pozostałe 90–94% to treści, które nie są indeksowane. Roboty wyszukiwarek nie docierają do większości zasobów zamieszczonych w głębokiej sieci, chociaż 95% z nich to publicznie dostępne informacje. Nieindeksowane zasoby internetu gwałtownie się powiększają i przyjmują przeważnie postać baz danych – ponad połowa niewidocznej sieci znajduje się w bazach danych specjalistycznych. Warto też dodać, że twórcy wyszukiwarek opracowują coraz lepsze algorytmy wyszukiwania, co powoduje, że zasoby „widzialnego” internetu i internetu ukrytego coraz bardziej się przenikają. Obecnie jesteśmy jednak dopiero na początku drogi, która ma na celu zindeksowanie jak największej części zasobów.

Ukryty internet nie jest tworem jednorodnym, którego zawartość można łatwo zdefiniować. Zasoby te, ze względu na swoją rozległość, treść i uwarunkowania techniczne, są bardzo heterogeniczne. C. Sherman i G. Price stosują podział na cztery typy źródeł znajdujących się w deep web, a kryteriami tego podziału są: podobny typ i format dokumentów, podobne problemy związane z dotarciem do nich i podobne sposoby ich znajdowania (strategie wyszukiwawcze).

Sieć nieprzezroczysta (ang. the opaąue web) – zaliczają się do niej te zasoby internetowe, które bez trudu mogą być indeksowane przez wyszukiwarki, ale z kilku powodów indeksowane nie są i dlatego znajdują się w ukrytym internecie. Powody to „głębokość” ich lokalizacji w internecie, częstotliwość przeszukiwania sieci, maksymalna liczba rezultatów wyszukiwania w rankingu odpowiedzi oraz nieobecne w hipertekście adresy URL;
Sieć zasobów prywatnych (ang. the private web) – sieć zasobów, które mogą być zaindeksowane przez wyszukiwarki, a mimo to indeksowane nie są. Istnieją trzy przyczyny takiego stanu rzeczy: hasło chroniące stronę – w tym wypadku mechanizm skanujący nie ma do niej dostępu i nie może zaindeksować jej zawartości – użycie przez autora strony pliku o nazwie „robot” w katalogu, w którym fizycznie umieszczono stronę www na serwerze. Plik taki umieszczany jest celowo – po to, by zabronić wyszukiwarkom indeksowania treści dokumentów. Zasoby znajdujące się w sieci prywatnej zwykle zawierają treści, które interesują osoby znające zarówno hasło, jak i adres konkretnej witryny;
Sieć zastrzeżona (ang. the proprietary web) – zasoby internetu dostępne tylko dla użytkowników, którzy uzyskali zgodę na ich przeglądanie i wykorzystywanie. Tego typu witryny wymagają rejestracji użytkownika. Można mówić o bezpłatnej i komercyjnej części tej sieci. Nawet zasoby darmowe są niedostępne dla wyszukiwarek – roboty nie mają możliwości przejścia przez proces rejestracyjny, który polega zwykle na odpowiadaniu na pytania zawarte w formularzu: podaniu danych osobowych niezbędnych do identyfikacji użytkownika czy określeniu własnych preferencji. Najrozleglejszą częścią sieci zastrzeżonej są komercyjne systemy płatnej rejestracji, oferujące dostęp do baz danych, które w większości zostały stworzone jeszcze przed powstaniem sieci WWW. Za jej pośrednictwem informacje znajdujące się w takich serwisach potencjalnie są udostępniane odbiorcom.
Prawdziwie ukryty internet (ang. truly invisible web) – zasoby należące do tej grupy nie są skanowane i indeksowane przez wyszukiwarki z powodów technicznych i technologicznych. Takie postawienie problemu nie jest jednak do końca słuszne, gdyż na bieżąco powstają nowe, coraz bardziej zaawansowane technicznie wyszukiwarki starające się indeksować choć część zasobów należących do prawdziwe ukrytego internetu. Również te istniejące dotychczas starają się nadążać w tym zakresie za konkurencją. Pierwsza grupa należąca do prawdziwie ukrytego internetu to dokumenty elektroniczne zapisane w formatach .pdf, .ps, .doc, Shockwave Flash, pliki skompresowane w różnych formatach oraz aplety wykonywalne, pliki multimedialne, obrazy i fotografie w różnych formatach, pliki muzyczne i wideo.

Z punktu widzenia przeciętnego użytkownika w deep web znajduje się wszystko to, co nie pojawia się na pierwszej stronie rezultatów wyszukiwania wiodących serwisów (Google) i czego nie ma w newsfeedzie na portalach społecznościowych (Facebook). Cały ruch sieciowy, czyli wszystkie dane, jest wielokrotnie szyfrowany w momencie przejścia przez poszczególne węzły. Ponadto żaden węzeł sieciowy nie zna ani źródła ruchu, ani jego punktu docelowego, ani zawartości. Sprawia to, że anonimowość jest na wysokim poziomie oraz w typowych warunkach niemal niemożliwe jest stwierdzenie, kto w rzeczywistości stoi za daną aktywnością sieciową. Cała zawartość jest przechowywana w różnych systemach o różnych strukturach. Deep web zawiera mnóstwo danych i informacji oraz bogactwo możliwości, m.in.:

zasoby nieindeksowane przez uniwersalne wyszukiwarki, zwłaszcza Google, z różnych powodów, w tym technicznych (błędne metadane, czas działania, nietypowe formaty itp.), ale też związane z polityką wyszukiwarek lub właścicieli serwisów www;
zasoby indeksowane, do których nie tak łatwo dotrzeć i których odnalezienie i wykorzystanie wymaga rozwiniętej strategii wyszukiwawczej;
wewnętrzne strony największych firm, stowarzyszeń i organizacji handlowych;
dokumenty w nietypowych formatach, np. skompresowane;
serwisy WWW zabezpieczone hasłem, np. fora, intranety (szkół, uczelni i uniwersytetów);
listy dyskusyjne wymagające zalogowania się;
serwisy WWW, do których nie prowadzą odsyłacze z innych witryn;
strony wyłączone z procesu indeksacji przez twórców, takie, których autorzy zablokowali robotom możliwość indeksowania ich treści;
treści generowane dynamicznie, w czasie rzeczywistym, np. w odpowiedzi na zapytanie użytkownika;
zasoby de facto indeksowane przez wyszukiwarki uniwersalne, ale pojawiające się na odległych miejscach na liście wyników wyszukiwania (aspekt algorytmów rankingowych) albo takie, których odnalezienie wymaga zaawansowanej strategii wyszukiwawczej;
zawartość komercyjnych baz danych, czasopism, wypożyczalni online itd. wymagających dokonania rejestracji albo subskrypcji;
zawartość publicznie dostępnych baz danych, archiwów i repozytoriów typu Open Access, bibliotek cyfrowych, katalogów bibliotecznych itp.;
źródła, do których dociera się dzięki poleceniom innych;
bazy danych, tworzone z reguły przez podmioty rządowe lub naukowe, w których wyszukiwanie za pomocą ich własnych interfejsów (a nie interfejsu Google czy innej wyszukiwarki globalnej) jest o wiele bardziej efektywne i których zawartość jest uważana za wiarygodną;
dane – badawcze, statystyczne i inne oraz zbiory takich danych;
grafiki, multimedia – a właściwie ich zawartość;
pełne teksty artykułów i książek;
zawartość portali społecznościowych.

Wspólne jest to, że ich informacje nie są przeznaczone do konsumpcji publicznej. Właściciele treści mogą dołożyć wszelkich starań, aby informacje były niedostępne, zapewniając, że nie pojawią się w wynikach wyszukiwania przeglądarki internetowej.

Przyczyny istnienia deep web to:

polityka i sposób działania wiodących serwisów WWW, zwłaszcza wyszukiwarek globalnych;
postępowanie dostawców treści/ zasobów informacyjnych – dostęp restrykcyjny, w tym komercyjny;
brak kompetencji cyfrowych/ informacyjnych użytkowników (digital literacy, information literacy),
zasoby nieindeksowane i/lub nieudostępniane przez Google.

Warto zauważyć, że deep web nie zawsze jest nielegalny i istnieje wiele działań, które odbywają się całkowicie w ramach prawa. Przestrzenie działań takie jak te wymienione poniżej są powszechne w ukrytej sieci, przy czym osoby zaangażowane w te działania to często znani internauci dobrze zorientowani w dostępie do deep web. Są to:

media społecznościowe, blogi, czaty głosowe;
międzynarodowe gry w stylu turniejowym, takie jak szachy i backgammon (tryktrak);
grupy typu „koniec świata”;
kluby książki, fankluby, kluby gier wideo;
ukryte odpowiedzi popularna wersja Yahoo Answers;
rejestry publiczne i certyfikaty, indeksy systemu bibliotecznego;
komunikacja za pomocą szyfrowanego użycia w celu zapewnienia prywatności i ochrony;
konkursy karaoke i śpiewu;
grupy teoretyków spisku;
kursy z zakresu obsługi komputera i technologii.

Tradycyjne wyszukiwarki tworzą swoje indeksy przez przeglądanie lub indeksowanie powierzchniowych stron internetowych. Aby zostać odkryta, strona musi być statyczna i połączona z innymi witrynami. Głębokie witryny sieci Web otrzymują średnio o 50% większy ruch miesięczny niż strony powierzchniowe i są bardziej powiązane z witrynami na powierzchni. Typowa głęboka strona internetowa jednak nie jest dobrze znana publiczności przeszukującej internet. Ponad połowa głębokich treści internetowych znajduje się w bazach tematycznych.

Deep web charakteryzuje się rozrostem, różnorodnością domen i licznymi ustrukturyzowanymi bazami danych. Rośnie w tak szybkim tempie, że skuteczne oszacowanie jego wielkości może być trudne lub wręcz niemożliwe.

Olga Wasiuta

M.K. Bergman, White Paper: The Deep Web: Surfacing Hidden Value, „The Journal of Electronic Publishing”, 2001, vol. 18, no. 1; The Deep Web: Surfacing Hidden Value, „The Journal of Electronic Publishing” 2001, vol. 7, no. 1; P. Biddle, P. England, M. Peinado et al., The Darknet and the Future of Content Distribution, Microsoft Corporation 2002; E. Dilipraj, Cyber Enigma: Unravelling the Terror in the Cyber World, Milton,Routledge 2019; T. Leżoń, Głęboko pod powierzchnią jest miejsce, o którym wołałbyś nie wiedzieć, 27.04.2015, TVN24.pl (dostęp 18.05.2019); K. Król, Deep Web i Dark Web: niewidoczne zasoby Internetu, 9.05.2019, HomeProject.pl (dostęp 18.05.2019); D. Mider, Mappa Mundi ukrytego Internetu. Próba kategoryzacji kanałów komunikacji i treści, „Praktyka i Teoria Informacji Naukowej” 2015, t. XXIII, nr 1; E. Morozov, The Net Delusion: The Dark Side of Internet Freedom, Public Affairs, New York 2011; W. Orliński, Internet. Czas się bać, Wydawnictwo Agora, Warszawa 2013; N. Pamuła-Cieślak, Typologia zasobów ukrytego internetu, „Przegląd Biblioteczny” 2006, z. 2; Ukryty Internet jako przedmiot edukacji informacyjnej, Wydawnictwo Naukowe Uniwersytetu Mikołaja Kopernika, Toruń 2015; C. Sheils, The Dark Web & Deep Web: How To Access The Hidden Internet Today. 27.02.2019, Digital.com (dostęp 18.05.2019); C. Sherman, G. Price, Gary, The Invisible Web. Uncovering Information Sources Search Engines Can’t See, Information Today, Medford, New Jersey 2003; M. Szpunar, Imperializm kulturowy internetu, Instytut Dziennikarstwa, Mediów i Komunikacji Społecznej Uniwersytetu Jagiellońskiego. Kraków 2017; M. Szpunar, Sieć ukryta a sieć widzialna. O zasobach WWW nieindeksowanych przez wyszukiwarki, „Przegląd Kulturoznawczy” 2014, nr 1 (19); D. Szumilas, Kop głębiej! Google to nie wszystko, „Magazyn Internet” 2005, nr 8; B. Świderski, Najciemniejszy zakątek internetu naprawdę istnieje. Ukryta sieć TOR: „Lewe” papiery, pedofilia, przekręty i narkotyki, 21.09.2012, NaTemat.pl (dostęp 18.05.2019); J.A. Wood, The Darknet: A Digital Copyright Revolution, „Richmond Journal of Law & Technology” 2010, vol. XVI, no. 4.

Spis treści