丸ごとローカルに保存したWebサイトをWeb検索できるようにする

Webサイトを丸ごとローカルに保存するツールは数多くありますが、その後の利用のしやすさまでは考えられてはいません。
せいぜいダウンロードするフォルダを分けるくらいでしょう。

そうしてダウンロードした数多くのWebサイトが、どこのディレクトリの何というページだったか思い出せず死蔵化して、資料として役に立たなくなります。

ローカルに保存したWebサイトのコピーに対して、Google検索みたいに検索できたら便利だと思いませんか?

Webサーバーと自前の検索サイトを立ち上げることでそれが可能になります。

Webサイトを丸ごとダウンロードする

HTTrackというツールを使うと、ローカルにWebサイトを丸ごとコピーすることができます。
インストールや使い方はこちらに書いてあります。

HTTrackでダウンロードしたWebサイトは
E:\Web資料
というディレクトリに色々なサイトが保存されているものとします。

ブラウザで丸ごとダウンロードしたWebサイトを見られるようにする

ローカルでWebサーバーを立てるのであれば XAMPP を使うと簡単です。
インストールや使い方はこちらに書いてあります。

httpd.confに以下の記述を追加します。

Alias /web "E://Web資料/"
<Directory "E://Web資料/">
    Options Indexes FollowSymLinks
    AllowOverride None
    Require all granted
</Directory>

Apacheを再起動すると

404 Not Found

でHTTrackでダウンロードしたサイトを見ることができます。

自前の検索サイトを立ち上げる

オープンソースの全文検索サーバー Fess(無料)を使うと自前の検索サイトを立ち上げることができます。

オープンソース全文検索サーバー Fess
Fess (フェス) は「5 分で簡単に構築可能な全文検索サーバー」です。

キャッチコピーは「5分で簡単に構築可能な全文検索サーバー」ということになっています。
本当に5分で構築可能かどうかツッコミ入れたいところですが、かなり簡単に自前の検索サイトを構築することが可能です。

インストールから立ち上げるまで5分で説明します。

Javaのインストール

Javaが必要です。
まだインストールされていない場合、

Download the Latest Java LTS Free
Subscribe to Java SE and get the most comprehensive Java support available, with 24/7 global access to the experts.

から、Oracle JDK Downloadを辿り
環境に合ったパッケージをダウンロードしてください。
ここでは Windows x64 Installerをダウンロードしました。

FESSのインストール

ダウンロード

Releases · codelibs/fess
Fess is very powerful and easily deployable Enterprise Search Server. - codelibs/fess

Releaseページに行き、fess-13.10.2.zip をダウンロードしてきて任意のディレクトリに展開しておきます。
私の環境では C:\fess-13.10.2 に展開しました。

FESSが稼働するポート番号の変更

FESSを展開した状態のデフォルトではポート8080でFESSが起動しようとしますが、
xamppに含まれるTomcatも8080ポートで起動しようとしますので競合するため、どちらかの変更が必要です。
FESS側のポート番号を変更します。

C:\fess-13.10.2\bin\fess.in.bat

8080で検索すると早いと思います。
上記の例では8888番に変更しました。

C:\fess-13.10.2\bin\fess.bat をダブルクリックし数分待ってブラウザで
http://localhost:8888/
にアクセスするとFESSの検索画面が表示されます。

キーワードを入れても何も検索結果が表示されません。
自分だけの検索サイトが立ち上がりました。

右上のログインをクリックしてパスワードを変更します。

ID admin
PW admin

でログインするとパスワードの変更を促されるので指示通りにします。

コメント

タイトルとURLをコピーしました