«前の日記(2009-01-12) 最新 次の日記(2009-01-14)» 編集

いがいが日記


2009-01-13 [長年日記]

_ HTMLからDownloadするスクリプトメモ

HTMLからざくざくDownloadする機会があったのでメモ。

HTMLを整形して以下の形にする。

wget "https://sample.com/foo.txt" --user=igaiga --password=foo

https時の --no-check-certificate は証明書の確認をしない。

httpsで接続する意味がなくなるので危険。注意。

落としてきたファイルがURI(un)escapeされている場合は

例えば以下のようなrubyスクリプトでリネーム。

URI.unescapeさせた名前のファイルが存在しなければリネームする。

require 'uri'

$KCODE = 'ShiftJIS'

Dir.glob('*').each do |filename|

unless File.exist?(URI.unescape(filename))

File.rename(filename, URI.unescape(filename))

end

end


«前の日記(2009-01-12) 最新 次の日記(2009-01-14)» 編集