#python3 from html.parser import HTMLParser class MyHTMLParser(HTMLParser): """ 1、tag是的html标签,attrs是标签的属性 2、抓网页中的超链接,返回list 3、抓网页标题, 4、handle_data:处理数据,就是<xx>data</xx>中间的那些数据 """ def __init__(self): HTMLParser.__init__(self) self.links=[] def handle_starttag(self, tag, attrs): if tag=="a": for key,value in attrs: if key=="href" and "http:" in value: self.links.append(value) data="""html页面的源码""" #初始化类MyHTMLParser parser=MyHTMLParser() #喂养,塞html页面的代码进去,会返回一个class类 parser.feed(data) #操作类方法和属性 print(parser.links)#操作属性
时间: 2024-11-06 09:53:09