2009-03-01から1ヶ月間の記事一覧

2009-03-05

lxmlで日本語のWebページのタイトルを取得する

日本語が化けて大変苦労したのでメモ。結論として、XML（またはHTML）を解析する前にunicode関数に通しておく、ということで良いのかな？相変わらず文字コード関連はよく分からない。 from urllib import urlopen from lxml import etree html = urlopen(…

2009-03-04

置換処理の置換後の文字列の代わりに関数を指定する

プログラミング python

今後も使えそうなのでメモ。 import re from django.core.exceptions import ObjectDoesNotExist from sample.web.models import WebPage PATTERN = r'<a href="%(dummy_url)s" >%(real_url)s</a>' HTML_TEMPLATE = re.compile(r"((http|https)://[-_.!~*\'()a-zA-Z0-9;\/?:\@&=+\$,%#]+)"…

ほんじゃらねっと

ダイエット中プログラマのブログ

2009-03-01から1ヶ月間の記事一覧

lxmlで日本語のWebページのタイトルを取得する

置換処理の置換後の文字列の代わりに関数を指定する