爬取https://www.parenting.com/baby-names/boys/earl网站top10男女生名字及相关信息

爬取源代码如下：

import requests
import bs4
from bs4 import BeautifulSoup
import re
import pandas as pd
import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding=‘gb18030‘)

lilist=[]

r=requests.get(‘https://www.parenting.com/baby-names/boys/earl‘)
soup=BeautifulSoup(r.text,"lxml")
soup= soup.find_all(‘a‘,href=True)
for i in soup:
if ‘https://www.parenting.com/pregnancy/baby-names/baby-boy-names/‘ in str(i)or‘https://www.parenting.com/pregnancy/baby-names/girl-baby-names/‘ in str(i):
lilist.append(i.get("href"))

lilist1=[]
results1=[]
results=[]
results2=[]

for i in list(set(lilist)):
r=requests.get(i)
soup=BeautifulSoup(r.text,"lxml")

Source=soup.find_all(‘p‘)
 Source=soup.find_all(attrs={‘class‘: ‘description‘})

 results0 = re.findall(‘<h4>(.*?)</h4>‘, r.text)
 for c in results0:
 if c!=‘‘:
 lilist1.append(c)
 #print(lilist1)
 #lilist1=[]

pattern = re.compile(‘Origin:\s(.*?)‘, re.S)
 results += re.findall(pattern, str(Source))

 pattern1 = re.compile(‘Meaning:\s(.*?)‘, re.S)
 results1 += re.findall(pattern1, str(Source))

pattern2 = re.compile("Why it’s big:\s(.*?)", re.S)
results2 += re.findall(pattern2, str(Source))

print(lilist1)
print(results1)
print(results)
print(results2)
data = {
    ‘EnName‘:lilist1,
    ‘Meaning‘:results1,
    ‘Origin‘:results,
    ‘Description‘:results2
}
frame = pd.DataFrame(data)
frame.to_csv(‘wt10.csv‘,encoding="gb18030")
#print(results2)
csv文件截图：

原文地址：https://www.cnblogs.com/c1q2s3/p/12078047.html

时间： 2024-11-02 05:38:55

爬取https://www.parenting.com/baby-names/boys/earl网站top10男女生名字及相关信息

爬取https://www.parenting.com/baby-names/boys/earl网站top10男女生名字及相关信息的相关文章

解决：python爬取https站点时SNIMissingWarning和InsecurePlatformWarning

python爬虫实战,多线程爬取京东jd html页面：无需登录的网站的爬虫实战

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

Scrapy爬取照片

【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

我的第一个Scrapy 程序 - 爬取当当网信息

python爬取网易云周杰伦所有专辑，歌曲，评论，并完成可视化分析

爬虫10-股票信息定向爬取

Python 利用 BeautifulSoup 爬取网站获取新闻流