爬取糗事百科用户地理位置，详细坐标

代码：import requests
from lxml import etree
import csv
import json
fp = open(‘E:/map.csv‘,‘wt‘,newline=‘‘,encoding=‘utf-8‘)
writer = csv.writer(fp)
writer.writerow((‘address‘,‘longitude‘,‘latitude‘))
headers = {‘User-Agent‘:‘Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0)‘}

def get_user_url(url):
url_part = ‘http://www.qiushibaike.com‘
res = requests.get(url,headers=headers)
selector = etree.HTML(res.text)
url_infos = selector.xpath(‘//div[@class="article block untagged mb15"]‘)
for url_info in url_infos:
uesr_part_urls = url_info.xpath(‘div[1]/a[1]/@href‘)
if len(user_part_urls) == 1:
user_part_url = user_part_urls[0]
get_user_address(url_part + user_part_url)
else:
pass

def get_user_address(url):
res = requests.get(url,headers=headers)
selector = etree.HTML(res.text)
if selector.xpath(‘//div[2]/div[3]/div[2]/ul/li[4]/text()‘):
address = selector.xpath(‘div[2]/div[3]/div[2]/ul/li[4]/text()‘)
get_geo(address[0].split(‘·‘)[0])
else:
pass

def get_geo(address):
par = {‘address‘:address,‘key‘:‘cb649a25c1f81c1451adbeca73623251‘}
api = ‘http://restapi.amap.com/v3/geocode/geo‘
res = requests.get(api,par)
json_data = json.load(res.text)
try:
geo = json_data[‘geocodes‘][0][‘location‘]
longitude = geo.splist(‘,‘)[0]
latitude = geo.splist(‘,‘)[1]
writer.writerow((address,longitude,latitude))
except IndexError:
pass

if __name__ == ‘__main__‘:
urls = [‘http://www.qiushibaike.com/text/page/{}/‘.format(str(i))for i in range(1,36)]
for url in urls:
get_user_url(url)
问题：生成的CSV文件文件内无任何内容只有之前打的标题爬取失败
解决方法：不知道啊！！！

原文地址：https://www.cnblogs.com/zhentaoFrezt/p/9281339.html

时间： 2024-11-09 00:53:53

爬取糗事百科用户地理位置，详细坐标的相关文章

PHP爬取糗事百科首页糗事

突然想获取一些网上的数据来玩玩,因为有SAE的MySql数据库,让它在那呆着没有什么卵用!于是就开始用PHP编写一个爬取糗事百科首页糗事的小程序,数据都保存在MySql中,岂不是很好玩! 说干就干!首先确定思路获取HTML源码--->解析HTML--->保存到数据库没有什么难的 1.创建PHP文件"getDataToDB.php", 2.获取指定URL的HTML源码这里我用的是curl函数,详细内容参见PHP手册代码为 <span style="fo

使用Python爬取糗事百科热门文章

默认情况下取糗事百科热门文章只有35页,每页20条,根据下面代码可以一次性输出所有的文章,也可以选择一次输出一条信息,回车继续.不支持图片内容的显示,显示内容包括作者,热度(觉得好笑的人越多,热度越高),内容.从热度最高开始显示到最低.实现代码如下: #!/usr/bin/python #coding:utf8 """ 爬取糗事百科热门文章 """ import urllib2 import re #模拟浏览器访问,否则无法访问 user_age

python3 爬虫之爬取糗事百科

闲着没事爬个糗事百科的笑话看看 python3中用urllib.request.urlopen()打开糗事百科链接会提示以下错误 http.client.RemoteDisconnected: Remote end closed connection without response 但是打开别的链接就正常,很奇怪不知道为什么,没办法改用第三方模块requests,也可以用urllib3模块,还有一个第三方模块就是bs4(beautifulsoup4) requests模块安装和使用,这里就不说

python爬取糗事百科段子

初步爬取糗事百科第一页段子(发布人,发布内容,好笑数和评论数) 1 #-*-coding:utf-8-*- 2 import urllib 3 import urllib2 4 import re 5 page = 1 6 url ='http://www.qiushibaike.com/hot/page/'+str(page) #第一页URL 7 headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/

爬取糗事百科的图片

小编,最近写了个单线程的爬虫,主要是爬取糗事百科的图片之类的,下面是源代码,小伙伴们可以拿去参照,学习 #!/usr/bin/env python# -*- coding:utf-8 -*-import requests,jsonimport requests,re,os,timeimport urllib.requestimport urllib.parseimport sslimport unittestfrom selenium import webdriver headers = {"U

多线程爬取糗事百科热门段子 (改写前天的博客)

利用多线程爬取,除了先前用到的几个模块之外,还需用到threading模块和queue模块: 为每一件事情开启一个线程:构造url_list.发送请求.提取数据.保存数据 __init__方法添加三个实例属性队列分别存放:url.响应内容.处理后的数据改写原先每一个方法里的代码,需要的东西直接从队列中取出,此时方法都无需多余参数了每当从一个队列取出数据,记得执行task_done()方法,使计数减一 run()方法里把yaozhixing的事情都开启一个线程,比较慢的事情,比如网络请求,可以

爬虫实战爬取糗事百科

偶然看到了一些项目,有爬取糗事百科的,我去看了下,也没什么难的首先,先去糗事百科的https://www.qiushibaike.com/text/看一下, 先检查一下网页代码, 就会发现,需要爬取的笑话内容在一个span标签里,而且父标签是class为content的div里,那就很简单了,用select方法,先找到该文件,然获取下来并保存在txt文件里.比较枯燥. 直接贴代码吧 from bs4 import BeautifulSoup import lxml import request

Python爬虫爬取糗事百科段子内容

参照网上的教程再做修改,抓取糗事百科段子(去除图片),详情见下面源码: #coding=utf-8#!/usr/bin/pythonimport urllibimport urllib2import reimport threadimport timeimport sys #定义要抓取的网页#url = 'http://www.qiushibaike.com/hot/'#读取要抓取的网页#globalcontent = urllib.urlopen(url).read()#抓取段子内容#new_

芝麻HTTP：Python爬虫实战之爬取糗事百科段子

首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的情况,是因为正则表达式没有匹配到的缘故. 现在,博主已经对程序进行了重新修改,代码亲测可用,包括截图和说明,之前一直在忙所以没有及时更新,望大家海涵! 更新时间:2015/8/2 糗事百科又又又又改版了,博主已经没心再去一次次匹配它了,如果大家遇到长时间运行不出结果也不报错的情况,请大家参考最新的评

猜你喜欢

【BZOJ】3139: [Hnoi2013]比赛

题目链接:http://www.lydsy.com/JudgeOnline/problem.php?id=3139 可以发现,答案之和得分的序列有关,而且和序列中每个元素的顺序无关.考虑HASH所有的 ...

Ubuntu “无法获得锁”解决方案(E: 无法获得锁 /var/cache/apt/archive

Ubuntu “无法获得锁”解决方案(E: 无法获得锁 /var/cache/apt/archive 现象一: E: 无法获得锁 /var/lib/dpkg/lock - open (11: 资源临时 ...

[DNS]ACL、also-notify、视图服务器及安全设置

1. ACL :访问控制列表放在named.conf的头部,如果acl的内容太多,可以另创建一个文件,将acl放在该文件中,再在主配置文件named.conf用include 将文件加载进来(记得放在 ...

封装JDBC操作数据库的方法

自己动手封装java操作数据库的方法: 一:目录结构二:所需依赖的第三方jar包这里只需引入mysql-connector-java-5.1.8-bin.jar,mysql数据库驱动jar包三: ...

Spark1.6 DataSets简介

Apache Spark提供了强大的API,以便使开发者为使用复杂的分析成为了可能.通过引入SparkSQL,让开发者可以使用这些高级API接口来从事结构化数据的工作(例如数据库表,JSON文件),并 ...

Linux的iptables常用配置范例（2）

iptables -F #清除所有规则 iptables -X #清除所有自定义规则 iptables -Z #各项计数归零 iptables -P INPUT DROP #将input链 ...

20.2015.8.12第二十二课ado.net1,2（增删改查代码）

//demo.aspx.cs登陆页面代码using System; using System.Collections.Generic; using System.Configuration; usin ...

xml文件解析基础和签名

0. 前言参考文档1:使用dom4j读取xml文件的四种方式参考文档2:dom4j解析xml文件参考文档3:String 和 document 的相互转换总结参考文档4: Java SE 6中 ...

大熊君JavaScript插件化开发------（实战篇之DXJ UI ------ Tab）

一,开篇分析 Hi,大家好!大熊君又和大家见面了,还记得前两篇文章吗.主要讲述了以“jQuery的方式如何开发插件”,以及过程化设计与面向对象思想设计相结合的方式是如何设计一个插件的,两种方式各有利 ...

OJ刷题之《求n阶勒让德多项式》

题目描述用递归方法求n阶勒让德多项式的值,递归公式为 n=0 pn(x) =1 n=1 pn(x) =x n>1 pn(x) =((2n-1)*x* pn-1(x) - ...

表删除操作

删除表内容(dml):delete from 删除表结构(ddl):drop table xx 清空表(ddl):truncate table 清空整张表,不能回滚,不会产生大量日志文件: 表空间会得 ...

[读书笔记] 计算机视觉与算法应用 Chapter 4.2 边缘

4.2 边缘尽管特征点对于寻找2D中能够精确匹配的图像位置非常有用,但是边缘点更为丰富且常常包含重要的语义关联. 4.2.1 边缘检测边缘出现在颜色.亮度或者纹理不一样的区域之间. 通常只使用局 ...

冯唐的诗

1. "春水初生,春林初盛,春风十里,不如你. ——冯唐 <三十六大>" 2. 实在放不下的时候,去趟重症病房或者墓地,你容易明白,你已经得到太多,再要就是贪婪,时间太 ...

oracle查看字符集和修改字符集

oracle查看字符集和修改字符集 : 查看数据库服务器的字符集: select userenv('language') from dual ; 登陆用dba: 停掉数据库 : shutdown im ...

Xcode7 使用NSURLSession发送HTTP请求报错［转］

控制台打印:Application Transport Security has blocked a cleartext HTTP (http://) resource load since it i ...

Beam 超实用examples之Pi值计算

Beam Pi值计算 Beam刚刚开源不是很久,快2个月了.目前的版本是0.5.0版本.官方的源码中提供了4个examples.无奈这四个案例都只是WordCount的四种不同的实现.作为一个从Spa ...

ZOJ 3334 Body Check 贪心算法

题目大意: 有m个医生和n个病人,每个病人检查身体的时间已知.医生必须同时工作或者只有一个人工作,求出检查完所有病人的最少时间.(同一时刻一个病人只能由一个医生检查,医生同时也只能检查一个病人,但是当 ...

C#中的for循环

循环就是重复执行一些语句来达到一定的目的,这个只需要设定好参数,同样的代码就可以执行成千上万次,在这里我将讲述for循环. 一,for循环 for(声明初始值;表达式是否成立;声明变化) { 执行循环 ...

jquery尺寸：宽度与高度

width() 方法设置或返回元素的宽度(不包括内边距.边框或外边距). height() 方法设置或返回元素的高度(不包括内边距.边框或外边距). innerWidth() 方法返回元素的宽度(包括 ...

Appium中长按按钮操作

在一次项目中,appium要对某个按钮进行长按操作(大于2s),类似拍微信小视频,参考网上长按视频会报错 action1 = TouchActions(self.driver) el = self.d ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 11 q. 0.025 s.