Webサイトを丸ごとローカルに保存するツールは数多くありますが、その後の利用のしやすさまでは考えられてはいません。
せいぜいダウンロードするフォルダを分けるくらいでしょう。
そうしてダウンロードした数多くのWebサイトが、どこのディレクトリの何というページだったか思い出せず死蔵化して、資料として役に立たなくなります。
ローカルに保存したWebサイトのコピーに対して、Google検索みたいに検索できたら便利だと思いませんか?
Webサーバーと自前の検索サイトを立ち上げることでそれが可能になります。
Webサイトを丸ごとダウンロードする
HTTrackというツールを使うと、ローカルにWebサイトを丸ごとコピーすることができます。
インストールや使い方はこちらに書いてあります。
HTTrackでダウンロードしたWebサイトは
E:\Web資料
というディレクトリに色々なサイトが保存されているものとします。
ブラウザで丸ごとダウンロードしたWebサイトを見られるようにする
ローカルでWebサーバーを立てるのであれば XAMPP を使うと簡単です。
インストールや使い方はこちらに書いてあります。
httpd.confに以下の記述を追加します。
Alias /web "E://Web資料/"
<Directory "E://Web資料/">
Options Indexes FollowSymLinks
AllowOverride None
Require all granted
</Directory>
Apacheを再起動すると
でHTTrackでダウンロードしたサイトを見ることができます。
自前の検索サイトを立ち上げる
オープンソースの全文検索サーバー Fess(無料)を使うと自前の検索サイトを立ち上げることができます。
キャッチコピーは「5分で簡単に構築可能な全文検索サーバー」ということになっています。
本当に5分で構築可能かどうかツッコミ入れたいところですが、かなり簡単に自前の検索サイトを構築することが可能です。
インストールから立ち上げるまで5分で説明します。
Javaのインストール
Javaが必要です。
まだインストールされていない場合、
から、Oracle JDK Downloadを辿り
環境に合ったパッケージをダウンロードしてください。
ここでは Windows x64 Installerをダウンロードしました。
FESSのインストール
ダウンロード
Releaseページに行き、fess-13.10.2.zip をダウンロードしてきて任意のディレクトリに展開しておきます。
私の環境では C:\fess-13.10.2 に展開しました。
FESSが稼働するポート番号の変更
FESSを展開した状態のデフォルトではポート8080でFESSが起動しようとしますが、
xamppに含まれるTomcatも8080ポートで起動しようとしますので競合するため、どちらかの変更が必要です。
FESS側のポート番号を変更します。
C:\fess-13.10.2\bin\fess.in.bat
8080で検索すると早いと思います。
上記の例では8888番に変更しました。
C:\fess-13.10.2\bin\fess.bat をダブルクリックし数分待ってブラウザで
http://localhost:8888/
にアクセスするとFESSの検索画面が表示されます。
キーワードを入れても何も検索結果が表示されません。
自分だけの検索サイトが立ち上がりました。
右上のログインをクリックしてパスワードを変更します。
ID admin
PW admin
でログインするとパスワードの変更を促されるので指示通りにします。
コメント