机器学习（ML）四之文本预处理

文本预处理

读入文本
分词
建立字典，将每个词映射到一个唯一的索引（index）
将文本从词的序列转换为索引的序列，方便输入模型

读入文本

import collections
import re

def read_time_machine():
    with open(‘/home/kesci/input/timemachine7163/timemachine.txt‘, ‘r‘) as f:
        lines = [re.sub(‘[^a-z]+‘, ‘ ‘, line.strip().lower()) for line in f]
    return lines

lines = read_time_machine()
print(‘# sentences %d‘ % len(lines))

分词

我们对每个句子进行分词，也就是将一个句子划分成若干个词（token），转换为一个词的序列。

def tokenize(sentences, token=‘word‘):
    """Split sentences into word or char tokens"""
    if token == ‘word‘:
        return [sentence.split(‘ ‘) for sentence in sentences]
    elif token == ‘char‘:
        return [list(sentence) for sentence in sentences]
    else:
        print(‘ERROR: unkown token type ‘+token)

tokens = tokenize(lines)
tokens[0:2]

建立字典

将字符串转换为数字。因此需要先构建一个字典（vocabulary），将每个词映射到一个唯一的索引编号。

1、unk在特殊词处理是必须要做的；

2、统计词频

3、词对照到索引编号

    def __init__(self, tokens, min_freq=0, use_special_tokens=False):
        counter = count_corpus(tokens)  # :
        self.token_freqs = list(counter.items())
        self.idx_to_token = []
        if use_special_tokens:
            # padding, begin of sentence, end of sentence, unknown
            self.pad, self.bos, self.eos, self.unk = (0, 1, 2, 3)
            self.idx_to_token += [‘‘, ‘‘, ‘‘, ‘‘]
        else:
            self.unk = 0
            self.idx_to_token += [‘‘]
        self.idx_to_token += [token for token, freq in self.token_freqs
                        if freq >= min_freq and token not in self.idx_to_token]
        self.token_to_idx = dict()
        for idx, token in enumerate(self.idx_to_token):
            self.token_to_idx[token] = idx

    def __len__(self):
        return len(self.idx_to_token)

    def __getitem__(self, tokens):
        if not isinstance(tokens, (list, tuple)):
            return self.token_to_idx.get(tokens, self.unk)
        return [self.__getitem__(token) for token in tokens]

    def to_tokens(self, indices):
        if not isinstance(indices, (list, tuple)):
            return self.idx_to_token[indices]
        return [self.idx_to_token[index] for index in indices]

def count_corpus(sentences):
    tokens = [tk for st in sentences for tk in st]
    return collections.Counter(tokens)  # 返回一个字典，记录每个词的出现次数

用现有工具进行分词

我们前面介绍的分词方式非常简单，它至少有以下几个缺点:

标点符号通常可以提供语义信息，但是我们的方法直接将其丢弃了
类似“shouldn‘t", "doesn‘t"这样的词会被错误地处理
类似"Mr.", "Dr."这样的词会被错误地处理

通过引入更复杂的规则来解决这些问题，但是事实上，有一些现有的工具可以很好地进行分词，我们在这里简单介绍其中的两个：spaCy和NLTK。

text = "Mr. Chen doesn‘t agree with my suggestion."

　　spaCy

import spacy
nlp = spacy.load(‘en_core_web_sm‘)
doc = nlp(text)
print([token.text for token in doc])

[‘Mr.‘, ‘Chen‘, ‘does‘, "n‘t", ‘agree‘, ‘with‘, ‘my‘, ‘suggestion‘, ‘.‘]

　NLTK

from nltk.tokenize import word_tokenize
from nltk import data
data.path.append(‘/home/test/input/nltk_data/nltk_data‘)
print(word_tokenize(text))

[‘Mr.‘, ‘Chen‘, ‘does‘, "n‘t", ‘agree‘, ‘with‘, ‘my‘, ‘suggestion‘, ‘.‘]

原文地址：https://www.cnblogs.com/jaww/p/12306227.html

时间： 2024-08-30 17:59:32

机器学习（ML）四之文本预处理的相关文章

程序员初学机器学习的四种方式

http://blog.jobbole.com/67621/ 本文由伯乐在线 - XiaoxiaoLi 翻译.未经许可,禁止转载!英文出处:Jason Brownlee.欢迎加入翻译组. 学习机器学习有很多方法,大多数人选择从理论开始. 如果你是个程序员,那么你已经掌握了把问题拆分成相应组成部分及设计小项目原型的能力,这些能力能帮助你学习新的技术.类库和方法.这些对任何一个职业程序员来说都是重要的能力,现在它们也能用在初学机器学习上. 要想有效地学习机器学习你必须学习相关理论,但是你可以利用你

（5）【整合】基于机器学习的酒店评论文本倾向性分析

酒店评论情感分析系统(五)—— [整合]基于机器学习的酒店评论文本倾向性分析本文主要是对之前的第三.四节所介绍的各分块进行整合. 流程: 对GUI界面输入的评论文本,先进行中文分词和去停用词,然后再按“环境,价格,卫生,服务”四个方面分类:同时通过调用LingPipe中的DynamicLMClassifier,对已标注的“中文情感挖掘酒店评论语料”库的学习,构造一个基本极性分析的分类器.最后用此分类器分别对整个评论文本给出总体评价和对四个方面分别给出相应的情感评价. 环境: 1. 操作系统:w

机器学习实战四（Logistic Regression）

机器学习实战四(Logistic Regression) 这一章会初次接触最优化算法,在日常生活中应用很广泛.这里我们会用到基本的梯度上升法,以及改进的随机梯度上升法. Logistic回归优点:计算代价不高,易于理解和实现缺点:容易欠拟合,分裂精度可能不高原理:根据现有数据堆分类边界线建立回归公式,依次进行分类. 这里的回归其实就是最佳拟合的意思. 1.基于Logistic回归和Sigmoid函数的分类. 我们需要一个这样的函数:接受所有的输入,然后预测出类别.例如,如果只有两类,则输出

中文文本预处理流程(带你分析每一步)

标签:中文文本预处理作者:炼己者 --- 欢迎大家访问我的简书以及我的博客,大家如果感觉格式看着不舒服,也可以去看我的简书,里面也会有发布本博客所有内容以学习.研究和分享为主,如需转载,请联系本人,标明作者和出处,并且是非商业用途,谢谢! 摘要机器学习我的理解就是把各种原始的东西变成机器可以理解的东西,然后再用各种机器学习算法来做操作.机器可以理解的东西是什么呢?--向量 .所以不管是图片还是文字,要用机器学习算法对它们进行处理,就要把它们转为向量. 网上大部分都是处理英文文本的资料,本文

文本预处理

文本预处理文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤: 读入文本可以直接利用open读入文本分词对每个句子进行分词,也就是将一个句子划分成若干个词(token),转换为一个词的序列分词的时候很多时候需要一份停用词表建立字典,将每个词映射到一个唯一的索引(index) 为了方便模型处理,我们需要将字符串转换为数字.因此我们需要先构建一个字典(vocabulary),将每个词映射到一个唯一的索引编号. 在模型处理的时

GCC编程四个过程:预处理-编译-汇编-链接

在Linux下进行C语言编程,必然要采用GNU GCC来编译C源代码生成可执行程序. 一.GCC快速入门Gcc指令的一般格式为:Gcc [选项] 要编译的文件 [选项] [目标文件]其中,目标文件可缺省,Gcc默认生成可执行的文件名为:编译文件.out我们来看一下经典入门程序"Hello World!"# vi hello.c #include <stdlib.h>#include <stdio.h>void main(void){printf("he

机器学习(ML)中文视频教程

本节是李政軒Cheng-Hsuan Li的关于机器学习一些算法的中文视频教程.讲得很好不错,这里非常感谢他的分享:http://www.powercam.cc/chli.也贴到这里,和大家共同学习. Clustering Fuzzy C-Means 基本概念(第1部分) Fuzzy C-Means 基本概念(第2部分) Fuzzy C-Means 基本概念(第3部分) Fuzzy C-Means 迭代公式推導 Regression Linear Regression Models-1 Linea

文本预处理常用操作

这里介绍一下文本预处理中常用的操作: 1．英文统一小写 text = text.lower() 2．分词 def cut(text): # return list(jieba.cut(text)) return [item for item in jieba.cut(text.lower())] if text != "" else [] 3．去噪两种方式 (1)去停用词包括中英文标点符号.以及噪音词,参考附录[1] stopwords = set([line.strip() fo

文本聚类——文本预处理

文本是非结构化的数据,我们无法直接对文本进行聚类处理.在此之前,应该对文本进行一些预处理操作,将文本信息转化成统一的结构化的形式.再对这些结构化的数据进行聚类. 文本预处理对于聚类的效果有着重要的作用,预处理的质量高低影响着聚类结果的好坏.对于英文文本的预处理一般包含以下几个步骤: 分词去除非英文文本拼写检查,转换小写词干化处理去停用词词频统计特征选择分词--tokenize 分句:tokenize segment NLTK中使用nltk.sent_tokenize(text) #