第一次接触正则表达式,和BeautifulSoup,第一印象就是复杂,必须要专门抽时间深入学习才行。
今天这个脚本初步应用他们的基本功能,爬取百度百科一个词条里面的其他词条链接。脚本没有采用之前的urllib.request而是直接用了request库来读取网页数据,据说这个更强大。
1 | import requests |
上面第19行使用url解码把臃肿的连接地址解码成简短的包含有中文的地址,只要浏览器可以识别就没有关系。
把 http://baike.baidu.com/item//item/%E5%BC%80%E6%94%BE%E6%BA%90%E4%BB%A3%E7%A0%81
解码成:http://baike.baidu.com/item/开放源代码
参考: