ほんじゃらねっと

遊びと学びと仕事をテクノロジーで楽しくする

2009-03-05から1日間の記事一覧

lxmlで日本語のWebページのタイトルを取得する

日本語が化けて大変苦労したのでメモ。 結論として、XML(またはHTML)を解析する前にunicode関数に通しておく、 ということで良いのかな? 相変わらず文字コード関連はよく分からない。 from urllib import urlopen from lxml import etree html = urlopen(…