Python爬虫爬数据写入到文件

#coding=utf-8
import requests
from bs4 import BeautifulSoup
import sys
reload(sys)  
sys.setdefaultencoding(‘utf8‘) 
r=requests.get(‘http://html-color-codes.info/color-names/‘)
html=r.text
#print html
soup=BeautifulSoup(html,‘html.parser‘)
trs=soup.find_all(‘tr‘)
f=open(‘color.txt‘,‘a‘)
index=1
for tr in trs:
	style=tr.get(‘style‘)
	tds=tr.find_all(‘td‘)
	td=[x for x in tds]
	name=td[1].text.strip()
	hex=td[2].text.strip()
	string=str(index)+‘,‘+name+‘,‘+hex+‘,‘+style
	f.write(string)
	f.write(‘\r\n‘)
	#print(‘序号:‘+str(index)+‘颜色:‘+name+‘颜色值:‘+hex+‘背景色样式‘+style)
	index=index+1
f.close()
‘‘‘
for index in range(len(trs)):
	style=trs[index].get(‘style‘)
	tds=trs[index].find_all(‘td‘)
	name=tds[1].text
	hex=tds[2].text
	print(‘颜色:‘+name+‘颜色值:‘+hex+‘背景色样式‘+style)
‘‘‘

直接上代码。本来这次是想抓取数据直接通过mysql相关的包写入到数据库来着,结果在网上找教程的时候发现MySQL那玩意好难安装。。。。。所以就直接放弃了。间接的把数据先写进txt文本,再慢慢导进数据库吧。。。。

时间: 2024-12-17 14:54:56

Python爬虫爬数据写入到文件的相关文章

Python爬虫爬数据写入到EXCEL中

Python抓数据写到EXCEL中.以前都是写到txt中然后再导入到excel.现在直接写到excel中. #coding=utf-8 import xlwt import requests from bs4 import BeautifulSoup import sys reload(sys)   sys.setdefaultencoding('utf8')  #打开excel文件 data=xlwt.Workbook() #获取其中的一个sheet table=data.add_sheet(

python爬虫爬取海量病毒文件

因为工作需要,需要做深度学习识别恶意二进制文件,所以爬一些资源. # -*- coding: utf-8 -*- import requests import re import sys import logging reload(sys) sys.setdefaultencoding('utf-8') logger = logging.getLogger("rrjia") formatter = logging.Formatter("%(asctime)s - %(name

Python爬虫爬取数据的步骤

爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多网页的变化规律,基本上都是只有小部分有所变化,如:有的网页只有网址最后的数字在变化,则这种就可以通过变化数字将多个网页链接获取: 2.把获取得到的多个网页链接存入字典,充当一个临时数据库,在需要用时直接通过函数调用即可获得: 3.需要注意的是我们的爬取并不是随便什么网址都可以爬的,我们需要遵守我们的

用Python爬虫爬取广州大学教务系统的成绩(内网访问)

用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code] 在{}之前的部分就是"选择器"."选择器"指明了{}中的"样式"的作用对象,也就是"样式"作用于网页中的哪些元素.可参考:http://www.w3school.com.cn/cssref/css_selectors.asph

简易python爬虫 - 爬取站长论坛信息

爬取目标: 收集网站帖子里发帖人用户名,发帖人ID;帖子的ID,发帖内容;网站title 提前需要准备的python库 pip3 install requests //用于获得网站的源码 pip3 install bs4 //解析遍历网站标签 pip3 install urllib //解析网站的url 首先导入包 import requestsfrom bs4 import BeautifulSoupfrom urllib.parse import parse_qs,urlparse impo

python爬虫—爬取英文名以及正则表达式的介绍

python爬虫—爬取英文名以及正则表达式的介绍 爬取英文名: 一.  爬虫模块详细设计 (1)整体思路 对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个csv文件中:再读取csv文件当中的每个英文名链接,采用循环的方法读取每一个英文名链接,根据每个英文名链接爬取每个链接中的数据,保存在新的csv文件当中. 需要写一个爬取英文名链接的函数.将爬取的内容保存在csv文件的函数以及读取csv文件内容的函数.爬取英文名详情页内容的函数. 表5.3.1 函数名

python爬虫爬取csdn博客专家所有博客内容

python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 结果如下: 版权声明:本文为博主原创文章,未经博主允许不得转载.

简单的python爬虫 爬的乌云漏洞类型

import urllib.request import re starturl="http://wooyun.org/searchbug.php?q=%E9%87%91%E8%9E%8D" def get_html_response(url): html_response = urllib.request.urlopen(url).read().decode('utf-8') return html_response def geturl(starturl): a=get_html_

Python爬虫爬取一篇韩寒新浪博客

网上看到大神对Python爬虫爬到非常多实用的信息,认为非常厉害.突然对想学Python爬虫,尽管自己没学过Python.但在网上找了一些资料看了一下,看到爬取韩寒新浪博客的视频.共三集,第一节讲爬取一篇博客,第二节讲爬取一页博客.第三集讲爬取所有博客. 看了视频.也留下了代码. 爬虫第一步:查看网页源码: 第一篇博客的代码为蓝底的部分<a title="" target="_blank" href="http://blog.sina.com.cn/