FC2ブログ
  1. 無料アクセス解析

【手作り】urlencodeとかquoteとか

pyscripterがpython3に対応したので
ちょこちょこといじってみた。

特定のURLにアクセスして
そのHTMLソースを取得し
その中にあるとある文字をいくつか抜き出したい。


HTML取得するのには
html = urllib.urlopen(URL).read()
でとれるとかよくwebにあるのにこれがエラーになる。

なんで?
何時間もwebを彷徨ったら
3ではurllib.urlopen()のかわりにurllib.request.urlopen()をつかってね
というのをようやく見つける。
うがー。
たったこれだけのために何時間使ったやら。

そして取得できたhtmlは見事に日本語として読めない。
このあたりの情報はまったくなくてまた凹む。

あきらかに文字コードが違うんだけど、これが何なのか判らない。
結局片っ端からやって.encode("cp923")を付与すれば見慣れたHTMLになってくれた。

もうつかれたよ。

で、URLのケツにクエリ文字をつけたいんだけど
それっぽい文字列に変換してくれる
urllib.urlencode
の使い方がよくわからない。
webに乗ってるのと同じに書いてもエラーになる。

quote()てのでいけるかと思ったらこれもこける。

ためしに試してみたら
こいつも
urllib.
でなくて
urllib.request.
に移されてたらしく

urllib.request.quote()

ようやく動いた。


むうん。
これは骨が折れそうだ、無駄に。

この記事へのコメント

コメントをお寄せ下さい

(コメント編集・削除に必要)
(管理者にだけ表示を許可する)

トラックバック

この記事のトラックバックURL
http://monostation.blog112.fc2.com/tb.php/1517-eac6a76e