模拟登录的原理都差点儿相同,大致都是这样:
- 打开首页获取相关cookie。
- 提交登陆表单(即username与password)。
- 确认是否登录成功。
假设想了解更具体的原理与相关知识,推荐到具体解释抓取站点,模拟登陆。抓取动态网页的原理和实现(Python,C#等)。(只是这系列博文实在太绕太绕太绕,数十篇文章互相穿插让人头晕眼花,我前后断断续续历时几个月才搞懂并编码測试成功)
模拟登录的关键点有两个。一是使用抓包工具(如chrome开发人员控制台)分析表单提交的真实链接与相关get/post參数,二是编写管理cookie的代码。对于第一点,在上述链接中已经有足够具体的教程,不再赘述。至于第二点,使用requests模块就能够很easy完美地解决,它能够保持管理同一会话中的cookie。用法在我上一篇博文有提到,相当方便。
登录成功之后,就是自己主动回帖了。wap网页比PC网页简单非常多,使得非常多操作都easy了非常多。本次实践中我使用了BeautifulSoup模块来解析网页。
在这里以post方法提交的表单中经常都会包括一些type="hidden"的元素,在模拟提交的时候不能缺少。
话说当完毕一项以前的难题之后,总是发现没什么具体记录的欲望了。。在这里我大概描写叙述了一下实现的路线。相关代码我放在我的Github上了,假设有什么问题或建议欢迎交流!
时间: 2024-11-06 01:02:55