如何儲存網頁為日後所用

網頁內容經常都會更新、消失、搬遷或更改內容,有時候bookmark了有用的資源,日後有需要時再查看卻發現當時的內容已不存在,為此可能就需要對網頁進行儲存留待日後所用。

儲存網頁到電腦

由於網頁內含有數十至數百個檔案,儲存到電腦需要付出一點功夫:

  • 儲存純文字到HTML檔案 – 在選單指令或瀏覽器的按鍵選擇「Save page as…」,然後選擇「Webpage, HTML Only」,這樣就會只儲存網頁內的文字,不會儲存任何圖檔或裝飾用內容。
  • 儲存文字和圖像 – 如果選擇「Webpage, Complete」的話除了創建HTML檔,還有一個相同名字的資料夾用來儲存所有圖像元素、裝飾和腳本,缺點是會儲存大量檔案佔據硬盤容量。「Webpage, Single File」則是較方便的選擇,把網頁所有資源打包到一個獨立的.mhtml檔案,可以在Chrome或Edge瀏覽器內自由打開,但其他瀏覽器則可能會有問題,這選項並不會出現在所有瀏覽器,不過只要安裝SingleFile擴充插件,就能在大部份瀏覽器上儲存整個網頁及媒體內容到一個HTML檔案,並在所有現代的瀏覽器上正常打開。
  • 列印到PDF – 只保留網頁主要內容而剔除選單和廣告,「Print to PDF」是最佳選項,而且可以在任何電腦上打開。

更簡單地儲存網頁

以上的方法都需要花一點時間和佔據硬盤上的空間,更方便的方法就是利用相應的服務,例如Pocket (前Read It Later)、wallabag或Raindrop.io,他們都以相同方式運作,用戶傳送連結服務便會接收包括圖像的所有文件,在去掉不需要的內容後,把網容儲存到個人的網上儲存之內,即使原來的網頁被刪除或修改,當時的版已也會保留在用戶的歸檔內,這種服務讓用戶能分組和排予連結、搜索文字內容和在任何裝置檢視已儲存的網頁,也為桌上電腦設有擴充搜件,流動裝置也設有應用程式。

透過付費訂閱這些服務提供「永遠」的檔案,這意味著要方便就需要付費,不過開源的Wallabag則可安裝在自己的伺服器,而無需向第三方支付服務費或擔心服務關閉。

為他人儲存網頁

如果不是為自己複製,而需要與他人分享某個版本的網頁,則需要到公共的歸檔服務,最知名的有archive.org、archive.today(又稱archive.is)、perma.cc和megalodon.jp,他們都以相似的形式運作,用戶要求或他們自動瀏覽網頁,廿共儲存到他們的伺服器。要求歸檔某網頁,以web.archive.org為例,在Save Page Now輸入完整網址然後點擊Save,在顯示所有網頁讀取的元件後便會提供一條永久連結,該連結會顯示儲存的網頁和儲存的時間,非常適合儲存用途。

如果在archvie.org上登記後可以管理一系列的連結,已儲存網站的撮圖和以特別的網絡歸檔格式下載,而打開歸檔連結,用戶裝可以看到儲存網頁並付有時間戳顯示儲存的時間,這功能對於追蹤和展示網站資料改變(例如價錢、產品描述更新、經過編輯的新聞報導等)相當有用。

尋找已刪除互聯網內容或舊版本網站

要查看舊版本的任何網站:

  • 打開archive.org
  • 輸入網站的完整網址或特定網頁,如果不知道正確的URL,可以檢索網站名稱或描述文字。
  • 從清單中選擇所需網站,結果顯示在甚麼時期內收藏了幾多個複製。
  • 使用月曆去選擇網站儲存的複製,日期上的圓型越大代表當日有更多個複製本。
  • 點擊所需的日期並查看已儲存的網站,過程可能需要數分鐘。
  • 利用月曆可以瀏覽較舊或較新的複製本。

如果archive.org幫不上忙的話

由於archive.org會因應版權持有者或有關部門的要求,把特定網站排除在外,加上永遠無法把整個互聯網都記錄,所以有時候會無法找到需要的網站,這時候不妨嘗試其他時間膠囊。Archive.today (又稱archive.is)不會自動儲存網頁,只會按用戶要求儲存,由於它不需遵循搜尋機器人 (robots.txt)的說明,這意味著歸檔含有archive.org沒有的文件。另一個重要的服務是perma.cc,由世界主要的圖書館聯盟創建,但只對參與的組織免費,個人用戶需要支付訂閱費用,價錢基於儲存連結的數量。

另一個強力的方案是搜索引擎的快取內容,為了對任何網頁建立索引,搜索引擎會檢索文字,所以幾乎可找到任何網頁的可原始可讀版本,可惜在2024年初Google決定從搜索結果中移除快取的直接連結,儘管其服務仍然有效,但要直接存取則十分困難,幸好可透過瀏覽器的擴充插件Web Archives協助,不論是web.archive.org、archive.today、perma.cc、Google、Bing或Yandex都能更直接地搜尋。

資料來源:Kaspersky Blog