Python 爬取数据入库mysql

 1 # -*- enconding:etf-8 -*-
 2 import pymysql
 3 import os
 4 import time
 5 import re
 6 serveraddr="localhost"
 7 user="root"
 8 password="123456"
 9 databaseName="test"
10 filename="./data/UNCL.csv"
11
12 def create_table():
13     # sep=os.sep
14     # tableName=raw_input(‘please input the table name which will be created:‘)
15     # classpath=raw_input(‘请输入需要遍历的路径:‘)
16
17     db=pymysql.connect(serveraddr,user,password,databaseName)
18     cursor=db.cursor()
19     cursor.execute("drop table if exists `tncl`")
20     sql="""    create table `tncl`(
21             `tncl_id` varchar(25) not null,
22             `tncl_tag` varchar(25) not null,
23             `tncl_desc` varchar(255) not null,
24             `tncl_note` varchar(1200) not null,
25             primary key(`tncl_id`)
26             ) engine=InnoDB default charset=utf8;"""
27
28     cursor.execute(sql)
29     db.close()
30 def test():
31     p1=r"^\s{13}\w.+|\n$"
32     pattern=re.compile(p1)
33     fr=open(filename)
34     w2=open(‘./data/e.csv‘,‘a‘)
35     for line in fr.readlines():
36         # print(line)
37         matcher=re.findall(pattern,line)
38         # print(matcher)
39         # print(type(matcher))
40         for i in matcher:
41             w2.write(i)
42             # w2.write("\n")
43     fr.close()
44     w2.close()
45
46
47 if __name__==‘__main__‘:
48     test()
时间: 2024-10-13 17:15:30

Python 爬取数据入库mysql的相关文章

一个咸鱼的Python爬虫之路(四):将爬取数据存入mysql

Python 与 mysql 数据连接 用pymysql import pymysql conn =pymysql.connect(host='127.0.0.1',user='root',password='123456',db='company',charset="utf8") cur=conn.cursor() sql=''' ''' employee=cur.execute(sql) conn.commit() cur.close() conn.close() 基本操作大概就这

python爬取数据保存入库

import urllib2 import re import MySQLdb class LatestTest: #初始化 def __init__(self): self.url="https://toutiao.io/latest" self.UserAgent='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.97 Safari/537.36'

python爬取数据被限制?一招教你伪造反爬技术!

1.Headers限制 这应该是最常见的,最基本的反爬虫手段,主要是初步判断你是否是真实的浏览器在操作. 这个一般很好解决,把浏览器中的Headers信息复制上去就OK了. 值得注意的是,很多网站只需要userAgent信息就可以通过,但是有的网站还需要验证一些其他的信息,比如知乎,有一些页面还需要 authorization 的信息.所以需要加哪些Headers,还需要尝试,可能还需要Referer.Accept-encoding等信息. 2.IP限制 限制IP也是很多网站反爬虫的初衷,有些人

python爬取数据并保存到数据库中(第一次练手完整代码)

1.首先,下载需要的模块requests, BeautifulSoup, datetime, pymysql(注意,因为我用的python3.7,不支持mysqldb了),具体的下载方法有pip下载,或者使用Anaconda版本python的童鞋可以使用conda下载. 2.创建conndb,py,包含数据库的连接断开,增删改查等操作: #!/usr/bin/env python # -*- coding:utf-8 -*- import pymysql def conn_db(): # 连接数

selenium+python爬取数据跳转网页

项目要做一个四个层级栏的数据抓取,而且点击查询后数据会在新跳出的网页. 源码如下 注释解释 from selenium import webdriver import selenium #from time import sleep as sp url='http://202.127.42.157/moazzys/nongqing.aspx' site=webdriver.Chrome() site.get(url) #data={} mainhandle=site.current_window

jdango+scrapy结合使用并爬取数据入库

1. 创建django项目,并编写models.py,启动django项目 2. 配置Django嵌入 Django项目根目录下创建Scrapy项目(这是scrapy-djangoitem所需要的配置) 配置Django嵌入,在Scrapy的settings.py中加入以下代码: import os import sys sys.path.append(os.path.dirname(os.path.abspath('.'))) os.environ['DJANGO_SETTINGS_MODUL

python爬取网页数据

python时间戳 将时间戳转为日期 #!/usr/bin/python # -*- coding: UTF-8 -*- # 引入time模块 import time #时间戳 timeStamp = 1581004800 timeArray = time.localtime(timeStamp) #转为年-月-日形式 otherStyleTime = time.strftime("%Y-%m-%d ", timeArray) print(otherStyleTime) python爬

python 爬取天猫美的评论数据

笔者最近迷上了数据挖掘和机器学习,要做数据分析首先得有数据才行.对于我等平民来说,最廉价的获取数据的方法,应该是用爬虫在网络上爬取数据了.本文记录一下笔者爬取天猫某商品的全过程,淘宝上面的店铺也是类似的做法,不赘述.主要是分析页面以及用Python实现简单方便的抓取. 笔者使用的工具如下 Python 3--极其方便的编程语言.选择3.x的版本是因为3.x对中文处理更加友好. Pandas--Python的一个附加库,用于数据整理. IE 11--分析页面请求过程(其他类似的流量监控工具亦可).

Python爬取天气网历史天气数据

我的第一篇博客,哈哈哈,记录一下我的Python进阶之路! 今天写了一个简单的爬虫. 使用python的requests 和BeautifulSoup模块,Python 2.7.12可在命令行中直接使用pip进行模块安装.爬虫的核心是利用BeautifulSoup的select语句获取需要的信息. pip install requests pip install bs4 以武汉市2017年5~7月的历史为例爬取天气网中武汉市的历史天气数据. 7月对应的网址为http://lishi.tianqi