Zbudowane przez Brewstera Kahle archiwum Webu w zasobach Internet Archive to chyba najbardziej znany projekt zabezpieczający historyczne wersje stron internetowych i innych obiektów dostępnych w usłudze WWW. Warto zwrócić uwagę na inne internetowe archiwum, mające już nie – jak w przypadku Internet Archive – globalny – ale regionalny charakter i pozwalające przeszukiwać zgromadzone zasoby w dość ciekawy sposób. Tym archiwum jest budowane przez British Library UK Web Archive.
Jakie zasoby są tam gromadzone?
Tylko w ciągu ostatniego miesiąca w UK Web Archive zarchiwizowano ponad 9 tys. stron internetowych oraz zebrano nowe wersje ponad 38 tys. stron. Łączna objętość tych danych to 9.67 terabajtów. Archiwizacja stron WWW odbywa się zawsze za zezwoleniem ich właścicieli – oznacza to konieczność bezpośredniego z nimi kontaktu i uzyskiwania zgody (chyba, że treść stron publikowana jest na licencji Creative Commons). Chociaż British Library uzyskała prawną podstawę do gromadzenia zasobów cyfrowych (Legal Deposit Libraries Act 2003) – jak czytamy na stronie UK Web Archive – konieczne są kolejne regulacje pozwalające na automatyczne budowanie historycznych kolekcji WWW.
W serwisie archiwum skorzystać można z dość interesującego narzędzia. UK Web Archive N-gram Search pozwalającego przeszukiwać treść wszystkich zgromadzonych zasobów i wizualizować częstotliwość występowania słów kluczowych na osi czasu. UK Web Archive udostępnia też możliwość pełnotekstowego przeszukiwania bazy zgromadzonych zasobów
Jakie zasoby są tam gromadzone?
UK Web Archive zawiera strony internetowe publikujące wyniki badań, oddające zróżnicowanie stylu życia, zainteresowań i aktywności mieszkańców Wielkiej Brytanii, prezentuje też internetowe innowacje. Obejmuje ono także strony mające status szarej literatury (grey literature): takie, które udostępniają sprawozdania, raporty, oświadczenia polityczne i inne efemeryczne, ale posiadające znaczenie postaci informacji.Wykorzystanie tu pojęcia szarej literatury jest dość istotne. Dr Helena Dryzek z Politechniki Warszawskiej proponuje kilka definicji szarej literatury oraz informuje o istnieniu specjalnego systemu gromadzącego od 2001 roku opisy dokumentów trudno dostępnych i niekonwencjonalnych, takich jak: sprawozdania i raporty z badań naukowych, materiały konferencyjne, dokumentacja techniczna, promocyjna i reklamowa, tłumaczenia niepublikowane, normy i zalecenia techniczne, niektóre dokumenty urzędowe itp. W zasobie archiwum znajdziemy także blogi o bardzo szerokim zakresie tematów: od politycznych i technologicznych aż po osobiste.
Tylko w ciągu ostatniego miesiąca w UK Web Archive zarchiwizowano ponad 9 tys. stron internetowych oraz zebrano nowe wersje ponad 38 tys. stron. Łączna objętość tych danych to 9.67 terabajtów. Archiwizacja stron WWW odbywa się zawsze za zezwoleniem ich właścicieli – oznacza to konieczność bezpośredniego z nimi kontaktu i uzyskiwania zgody (chyba, że treść stron publikowana jest na licencji Creative Commons). Chociaż British Library uzyskała prawną podstawę do gromadzenia zasobów cyfrowych (Legal Deposit Libraries Act 2003) – jak czytamy na stronie UK Web Archive – konieczne są kolejne regulacje pozwalające na automatyczne budowanie historycznych kolekcji WWW.
W serwisie archiwum skorzystać można z dość interesującego narzędzia. UK Web Archive N-gram Search pozwalającego przeszukiwać treść wszystkich zgromadzonych zasobów i wizualizować częstotliwość występowania słów kluczowych na osi czasu. UK Web Archive udostępnia też możliwość pełnotekstowego przeszukiwania bazy zgromadzonych zasobów
No comments:
Post a Comment