Sahara's WebLog

日記のような、備忘録のような、うらみつらみのような、自慢のような…。

Webサイトを丸ごとダウンロードする。 Cyotek WebCopy

Webサイトを丸ごとダウンロードする。

最初に試したWeBoXは文字化けしたり、ページのレイアウトが再現できなかったりでダメだった。
どこかで設定をすれば改善するのかもしれないがやってない。

次にCyotek WebCopyを試した。
Downloadsから最新版をもらって来てインストールして、サイトのアドレスと保存先を入力してCopyをクリックするだけで保存が開始される。


これだけでローカルにそのまま保存されて表示の再現性も問題なかったのでWeBoXは却下、Cyotek WebCopyを採用することにした。

細かな設定とかはまだ詰めていないが、とりあえず必要なものはローカルで再現できている。

追記
もう少し詳しい使い方
設定はcwpファイルとして保存する。

アドレスを入力してからScanをクリックする。

スキャンが始まるが、大きなサイトなら時間がかかるので適当にCancelしていったん止め、読み込む階層などを指定した方がいい。

その後、Copyボタンでデータを取得するが、これは上に書いた。

※設定にあるSibling domainsとSub domainsの違いがよくわらない。
 斜めに検索して出てきたこんなサイトにあった記述。

Sibling domains are subdomains that share a common suffix which is not a public suffix. For example, foo.example.com and evil.example.com are sibling domains, because example.com is not a public suffix; foo.co.uk and evil.co.uk are not sibling domains because co.uk is a public suffix.

 common suffixかpublic suffixかの違いなら、データ取得に関しては違いがないのでは?

このエントリーをはてなブックマークに追加

Posted under: Internet その他


コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

Time limit is exhausted. Please reload CAPTCHA.