python抓取内涵段子文章

# coding:utf-8
from urllib.request import urlretrieve
import threading
import requests
from bs4 import BeautifulSoup
from datetime import datetime
import pymysql
import random
import  json
import  time

number=0
def GetArticel():
    max_time = 1519404642
    data = requests.get("http://www.neihanshequ.com/joke/?is_json=1&app_name=neihanshequ_web&max_time=" + str(max_time))
    soup = BeautifulSoup(data.text, ‘html5lib‘)
    #print(soup.select_one(‘body‘).get_text())

    global number
    jsondata=json.loads(str(soup.select_one(‘body‘).get_text()))
    articleList=jsondata[‘data‘][‘data‘]
    f = open("article.txt", ‘a‘,encoding=‘utf-8‘)
    for item in articleList:
       number+=1
       #print(number)

       f.write(item[‘group‘][‘content‘]+‘\n\n\n‘)
       print(number)
    f.close()

        # print(count)
        # print(item)

if __name__ == ‘__main__‘:

   for i in range(1,10):
    print(i)
    #GetArticel()
    #time.sleep(1)

  

原文地址:https://www.cnblogs.com/dongml/p/8673279.html

时间: 2024-11-09 10:19:42

python抓取内涵段子文章的相关文章

python 抓取内涵段子

#!/usr/bin/env python #coding:utf-8 import requests,io,time from bs4 import BeautifulSoup def neihanjoke():     headers = {         'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',         'Accept-Enco

python 抓取"一个"网站文章信息放入数据库

# coding:utf-8 import requests from bs4 import BeautifulSoup import json import time import datetime import pymysql import sys reload(sys) sys.setdefaultencoding('utf-8') # 获取文章内容方法 def getartinfo( url ): page = requests.get(url).content soup = Beaut

使用python抓取CSDN关注人的所有发布的文章

# -*- coding: utf-8 -*- """ @author: jiangfuqiang """ import re import urllib2 import cookielib import time def startParser(author,page=1): reg = r'<a href="/\w+/article/details/\d+">\s*\t*\n*\s*\t*\s*.*?\t*\n

使用python抓取CSDN关注人的全部公布的文章

# -*- coding: utf-8 -*- """ @author: jiangfuqiang """ import re import urllib2 import cookielib import time def startParser(author,page=1): reg = r'<a href="/\w+/article/details/\d+">\s*\t*\n*\s*\t*\s*.*?\t*\n

使用python scrapy框架抓取cnblog 的文章内容

scrapy 的文档请移驾到 http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.html 1.准备工作  安装python .Spyder .scrapy 如果想要数据直接入mysql 还需要安装python的 MySQLdb 依赖包 本人mac操作系统 安装MySQLdb的时候出现了些小问题  最后是重装了openssl 才通过的 Spyder 是编写python的ide 2.新建项目  cd /usr/local/var/ww

python抓取伯乐在线的所有文章,对标题分词后存入mongodb中

依赖包: 1.pymongo 2.jieba # -*- coding: utf-8 -*- """ @author: jiangfuqiang """ from HTMLParser import HTMLParser import urllib2 import sys import pymongo import time import jieba import traceback default_encoding = 'utf-8' if s

Python实现抓取CSDN热门文章列表

1.使用工具: Python3.5 BeautifulSoup 2.抓取网站: csdn热门文章列表 http://blog.csdn.net/hot.html 3.实现代码: __author__ = 'Administrator' import urllib.request import re from bs4 import BeautifulSoup ######################################################## # # 抓取csdn首页文

Python实现抓取CSDN首页文章列表

1.使用工具: Python3.5 BeautifulSoup 2.抓取网站: csdn首页文章列表 http://blog.csdn.net/ 3.实现代码: __author__ = 'Administrator' import urllib.request import re from bs4 import BeautifulSoup ######################################################## # # 抓取csdn首页文章http://

Python抓取需要cookie的网页

Python抓取需要cookie的网页 在仿照<Python小练习:可视化人人好友关系>一文时,需要登录模拟登录人人网.然而自从CSDN事件之后,人人网开始使用加密方式处理登录名和密码,直接使用post方式已经无法登陆人人网.这时,从豆瓣讨论中找到了解决方法: 1. 首先使用浏览器登陆人人,然后找到浏览器中关于登陆的Cookie: 2. 将Cookie记录下来,在Python中使用cookie模块模拟浏览器的行为: 3. 取得并解析数据. 1. HTTP协议与Cookie 抓取网页的过程跟浏览