- #获取<a href></a>中的URL
- print u‘\n获取链接中URL:‘
- res_url = r"(?<=href=\").+?(?=\")|(?<=href=\‘).+?(?=\‘)"
- link = re.findall(res_url , content, re.I|re.S|re.M)
- for url in link:
- print url
(?<=href=\").+?(?=\")|(?<=href=\‘).+?(?=\")"
(?<=href=\").+?(?=\")
前边是href="有一个或多个.
最后一个字符是“ 前边的\是转意
绿色部分很重要,是正则的贪婪表示,取最小部分匹配。
http://blog.csdn.net/eastmount/article/details/51082253。。。。。。。。。。。受益匪浅
时间: 2024-12-14 04:50:20