2009-01-13 [長年日記]
_ HTMLからDownloadするスクリプトメモ
HTMLからざくざくDownloadする機会があったのでメモ。
HTMLを整形して以下の形にする。
wget "https://sample.com/foo.txt" --user=igaiga --password=foo
https時の --no-check-certificate は証明書の確認をしない。
httpsで接続する意味がなくなるので危険。注意。
落としてきたファイルがURI(un)escapeされている場合は
例えば以下のようなrubyスクリプトでリネーム。
URI.unescapeさせた名前のファイルが存在しなければリネームする。
require 'uri'
$KCODE = 'ShiftJIS'
Dir.glob('*').each do |filename|
unless File.exist?(URI.unescape(filename))
File.rename(filename, URI.unescape(filename))
end
end