无图言虚空
解析器 | 使用方法 | 优势 | 劣势 |
---|---|---|---|
Python标准库 | BeautifulSoup(markup, "html.parser") | Python的内置标准库 执行速度适中 文档容错能力强 | Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差 |
lxml HTML 解析器 | BeautifulSoup(markup, "lxml") | 速度快 文档容错能力强 | 需要安装C语言库 |
lxml XML 解析器 | BeautifulSoup(markup, ["lxml", "xml"]) BeautifulSoup(markup, "xml") | 速度快 唯一支持XML的解析器 | 需要安装C语言库 |
html5lib | BeautifulSoup(markup, "html5lib") | 最好的容错性 以浏览器的方式解析文档 生成HTML5格式的文档 | 速度慢 不依赖外部扩展 |
同理window的也一样,下载对应的驱动,解压后,将下载的**.exe 放到Python的安装目录,例如 D:\python 。 同时需要将Python的安装目录添加到系统环境变量里。
qq登录页http://i.qq.com,利用webdriver打开qq空间的登录页面
driver = webdriver.Chrome()
driver.get("http://i.qq.com")
这个时候可以看到已经打开了qq说说的页面了, 注意 部分空间打开之后会出现一个提示框,需要先模拟点击事件关闭这个提示框
tm我以前竟然还有个黄钻,好可怕~~,空间头像也是那么的年轻、主流...
至此,爬取qq说说内容,并生成词云图。
源码github地址: github.com/taixiang/sp…
万人交流源码共享群:125240963
原文地址:https://www.cnblogs.com/sm123456/p/9035867.html
时间: 2024-10-07 22:41:39