1.导入相应的包
import requests from lxml import etree
2.原始ur
url="https://www.dytt8.net/html/gndy/dyzz/list_23_1.html"
我们要爬取的是最新电影,在该界面中,我们发现,具体的信息存储在每个名字的链接中,因此我们要获取所有电影的链接才能得到电影的信息。同时我们观察url,发现
list_23_1,最后的1是页面位于第几页。右键点击其中一个电影的名字-检查。
我们发现,其部分连接位于具有class="tbspan"的table的<b>中,首先建立一个函数,用来得到所有的链接:
#用于补全url base_url="https://www.dytt8.net" def get_domain_urls(url): response=requests.get(url=url,headers=headers) text=response.text html=etree.HTML(text) #找到具有class="tbspan"的table下的所有a下面的href里面的值 detail_urls=html.xpath("//table[@class=‘tbspan‘]//a/@href") #将url进行补全 detail_urls=map(lambda url:base_url+url,detail_urls) return detail_urls
我们输出第1页中的所有url结果:
url="https://www.dytt8.net/html/gndy/dyzz/list_23_1.html" for i in get_domain_urls(url): print(i)
原文地址:https://www.cnblogs.com/xiximayou/p/11715810.html
时间: 2024-10-01 20:05:16