2010年2月18日 星期四

Beautiful Soap:使用python擷取html內容

這是一個python的html library,之前在製作美食邦的時候用到的。一般來說,在製作網路爬蟲時,如果要擷取這份html裡面的某一段資料,大多是使用Regular Expression(正規表達式)來完成。

有時候,還真希望可以使用jQuery一樣,直接指定路徑即可擷取內容。
不過有了Beatutiful Soap之後,這個願望是可以實現的,比較可惜的是,要使用python。
不過是有相關串接的library可以使用。
請參考Beautiful Soap:
http://www.crummy.com/software/BeautifulSoup/