结巴分词与词云，简单爬虫——10.28 (python)

bilibili弹幕词云

美国历史词云

结巴分词

import jieba

txt=" **** "

精确模式：全模式：搜索模式：

res = jieba.cut(txt) res =jieba.cut(txt ,cut_all=True) res=jieba.cut_for_search(txt)

for i in res: for i in res: for i in res:

print(i) print(i) print(i)

或者

res = jieba.lcut(txt) res=jieba.lcut(txt,cut_all=True) res=jieba.lcut_for_search(txt)

print(res)

词云

1.小段文字的词云

from wordcloud import WordCloud

import matplotlib.pylot as plt

from imageio import imread

txt="小段文字"

color_mask=imread(‘图片路径‘)

wc=WordCloud(

width: ** ,

height: ** ,

background_color: ** ,

font_path:r‘c:\windows\Fonts\***‘,

mask=color_mask

)

wc.generate( txt )

wc.to_file(‘cy.pg‘)

plt.imshow(wc)

plt.show()

2.文本文件的词云

from wordcloud import WordCloud

import matplotlib.pylot as plt

from imageio import imread

f.open(‘文本文件名.txt‘,encoding=‘utf8‘)

data=f.read

result="".join(jieba.lcut(data))

color_mask=imread(‘图片名.jpg‘)

wc=WordCloud(

height:**,

width:**,

font_path=r‘c:\windows\Fonts\***‘,

mask=color_mask

)

wc.generate(result)

wc.to_file(‘图片名.png‘)

plt.imshow(wc)

plt.show()

案例（）

1.爬取bilibili弹幕

import requests

from bs4 import BeautifulSoup

import pandas as pd

imort datetime

import re

header={

‘User-Agent‘:‘*********‘

}

url=‘http:\\comment.bilibili.com/codecid.xml‘

#向对方服务器发送请求 response=requests.get(url=url,headers=header)

#设置字符码 response.encoding = response.apparent_encoding

#获取文本 data=response.txt

#解析 soup=BeautifulSoup(data,‘lxml‘)

#获取所有的d标签 d_list=soup.find_all(‘d‘)

dlist[]

#循环所有的d标签 for d in d_list:

danmu={}

danmu[‘弹幕‘]=d.txt #获取文本信息

danmu[‘时间‘]=datetime.datetime.now()

danmu[‘地址‘]=url

dlist.append(danmu)

#转换为二维数组，类似于excel表格 df=pd.DataFrame(dlist)

f=open(‘sign.txt‘,‘w‘,encoding=‘utf8‘)#打开文件

#循环所有的文件信息 for i in df[‘弹幕‘].values:

pat=re.compile(r‘[一-龥]+‘)#定义过滤的规则（所有的汉字）

filter_data=re.findall(pattern=pat,string=i)#执行过滤操作

f.write("".join(filter_data))#写入文本

f.close()

2.bilibili弹幕分析

import jieba

from wordcloud import WordCloud

import matplotlib.pylot as plt

from imageio import imread

f=open(‘sign.txt‘,‘r‘,encoding=‘utf8‘)

data=f.read()

result="".join(jieba.lcut(data))

f.close

color_mask=imread(‘图片名称.jpg‘)

wc=WordCloud(

height=***,

width=***,

background_color=‘**‘,

font_path=r‘c:\windows\Fonts\***‘,

mask=color_mask

)

wc.generate(result)

wc.to_file(‘bilibili.png‘)

plt.imshow(wc)

plt.show()

————————godlover

原文地址：https://www.cnblogs.com/godlover/p/11754311.html

时间： 2024-11-06 03:39:54

结巴分词与词云，简单爬虫——10.28 (python)的相关文章

Studio 爬虫文本分词化词云个性化设计

Studio 爬虫文本分词化词云个性化设计分析步骤设置工作目录下载依赖包加载依赖包设置爬虫数据的URL地址爬取数据数据清洗产看数据制作词云加载停用词表去掉停用词查看数据生成Top100 词云生成完整词云个性化设计 setwd() install.packages("rjava") install.packages("wordcound") install.packages("wordcound2") librar

Python 分词及词云绘图

支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析:全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义:搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词. 关键词:HMM 隐马尔可夫模型三种分词模式: # -*- coding: utf-8 -*- import jieba #jieba.initialize() seg_list = jieba.cut("中华人民共和国万岁!", cut_all=False

jieba分词与worldcloud词云

中文分词的优秀库. 安装:pip install jieba 主要有三种模式,但是最主要有一个函数模式:精确模式:把文本精确的切分开,不存在冗余单词全模式:把文本中所有可能的词语都扫描出来,有冗余搜索引擎模式:在精确模式上,对长词再次切分函数:jieba.lcut(str):精确模式,返回一个列表 jieba.lcut(str,cut_all=True):就变成全模式,存在冗余 jieba.lcut_for_search(str):搜索引擎模式,返回列表,有冗余 jieba.add_wo

python3 wordcloud词云

wordclou:根据文本生成词云一.词云设置 1 wc=WordCloud(width=400, height=200, #画布长.宽,默认(400,200)像素 2 margin=1, #字与字之间的距离 3 background_color='white',#背景颜色 4 min_font_size=3,max_font_size=None,#显示的最小,最大的字体大小 5 max_words=200,#显示的词的最大个数 6 ranks_only=None,#是否只是排名 7 pref

放开那词云，让我来

一前几天在文章<迟到的 2018 年度总结(文内有福利)>中,我使用了分词和词云的展示效果,有不少同学都在后台问我是怎么实现的,也希望能用到自己的总结里面去. 其实主要思路是参考大佬 Python之禅(专业研究 Python,有兴趣的同学可以关注) 的文章<北大开源中文分词工具pkuseg-python,我用张小龙的3万字演讲做了统计>,然后稍微做了下变通. 为了让这个工具更易用,我给加了简单的 UI 界面,这样所有人都可以无门槛的拿来即用,用完即走了. 而问题就是时间拖的有点晚

[python] 词云：wordcloud包的安装、使用、原理（源码分析）、中文词云生成、代码重写

词云,又称文字云.标签云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思.常见于博客.微博.文章分析等. 除了网上现成的Wordle.Tagxedo.Tagul.Tagcrowd等词云制作工具,在python中也可以用wordcloud包比较轻松地实现(官网.github项目): from wordcloud import WordCloud import matplotlib.pyplot as pl

python 简单爬虫（beatifulsoup)

---恢复内容开始--- python爬虫学习从0开始第一次学习了python语法,迫不及待的来开始python的项目.首先接触了爬虫,是一个简单爬虫.个人感觉python非常简洁,相比起java或其他面向对象的编程语言,动态语言不需要声明函数或变量类型.python有20年的发展历史,以简洁高效闻名,python最初只是一个马戏团的名字,它的哲学是'用一种方法完成一件事情'.我第一次使用python时就被它的简洁高效迷住了,相比起c++和java,他简直太棒了.而且现阶段的大数据和人工智能领

用QQ聊天记录生成一个词云

QQ的聊天记录可以通过消息管理器,选中联系人,右键导出为 .txt 格式.由于是中文,需要分词,本文的分词工具采用的是 jieba 分词. 不知道这个“福”能不能扫出来. 假设你已经导出与某人的聊天记录,接下来需要先过滤再分词生成词云. 1. 过滤掉图片和表情,以及聊天记录的时间和qq名称 newtext = [] for word in open('lr.txt', 'r', encoding='utf-8'): tmp = word[0:4] if (tmp == "2019" o

python爬虫——京东评论、jieba分词、wordcloud词云统计

接上一章,抓取京东评论区内容. url='https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv399&productId=4560435&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1' 重点是productId--产品id.page--页码.pageSize:指定