想做做信息检索课设,先写个爬虫爬爬微博。
看了一下午微博的api,晚上决定用chromnium。
先通过pip安装selenium,官方文档看一眼,
pip install selenium
然后需要安装浏览器的driver,浏览器的调试模式一样
通过Choco安装,powershell一句话
choco install selenium-all-drivers
完毕。然后开始写代码
1 from selenium import webdriver 2 from time import sleep 3 4 5 browser = webdriver.Chrome() 6 try: 7 print("open the browser...") 8 browser.get(r‘http://weibo.com‘) 9 print(browser.title) 10 except Exception: 11 print(‘browser open failed...‘) 12 13 sleep(5) 14 15 16 print("select href_links...") 17 href_li = browser.find_elements_by_css_selector(‘a‘) 18 print("total links:",len(href_li)) 19 print(‘not tag named <a>‘) 20 print(" for all the links") 21 for href_element in href_li: 22 print(href_element.text)
微博首页有js的动态加载,本来打算游客登陆的,结果发现直接访问会卡在一个游客的认证空白页几秒钟,然后针对网页的分析什么都是空的, sleep(5) 之后才能找到想要的东西。
干啥都得等一等,我决定下次用微博的api。。。
原文地址:https://www.cnblogs.com/Liyunkai/p/9471518.html
时间: 2024-10-08 04:44:45