淘宝的评论归纳是如何做到的? - 社交网络 - 知乎

body
{
font-family: Microsoft YaHei UI,"Microsoft YaHei", Georgia,Helvetica,Arial,sans-serif,宋体, PMingLiU,serif;
font-size: 10.5pt;
line-height: 1.5;
}
html, body
{

}
h1 {
font-size:1.5em;
font-weight:bold;
}
h2 {
font-size:1.4em;
font-weight:bold;
}
h3 {
font-size:1.3em;
font-weight:bold;
}
h4 {
font-size:1.2em;
font-weight:bold;
}
h5 {
font-size:1.1em;
font-weight:bold;
}
h6 {
font-size:1.0em;
font-weight:bold;
}
img {
border:0;
max-width: 100%;
height: auto !important;
}
blockquote {
margin-top:0px;
margin-bottom:0px;
}
table {
border-collapse:collapse;
border:1px solid #bbbbbb;
}
td {
border-collapse:collapse;
border:1px solid #bbbbbb;
}

社交网络

数据挖掘

自然语言处理

LDA

淘宝的评论归纳是如何做到的?

6 条评论
分享

按投票排序
按时间排序

9 个回答

什么是答案总结?
答案总结

.zm-item-answer"}" data-init="{"params": {"url_token": 20905103, "pagesize": 20, "offset": 0}, "nodename": "QuestionAnswerListV2"}" data-fixed-summary="1">


赞同
177


反对,不会显示你的姓名

ZBBBB,在互联网里打滚

收起

知乎用户、知乎用户、张士赫

等人赞同

PS:语义分析的概要过程大家可以去程序员杂志七月刊上阅读

作为这个产品技术团队之一,简单说下这个过程:
1,按类目特征,拉取这个类目下的评论,进行分词,统计词频;
2,对词进行聚类,包含常用的LDA,结合本体库,将词进行归类和分类,建立语料库;(分类是最重要的一步,比如服装类目下学院风、淑女、熟女、休闲等都会归为款式这类)
3,属性情感搭配,建立属性词和情感词的连接关系,判断分句的情感;
4,属性词+情感词转换到属性类的情感,对句子进行位置标记;
5,将属性情感和位置标记结果build到搜索中,便于根据标签反向检索内容。

借用一句话:产品从0到1是很容易的,但是将1做到100确实个不断优化的过程,期待对这方面有兴趣的人给予建议和指导,也大大欢迎加入共建。

编辑于 2013-06-13

29 条评论

感谢

分享
收藏

?

没有帮助

?

举报


赞同
19


反对,不会显示你的姓名

慕希颜,把该说的话好好说

收起

周颖、知乎用户、enjoy Yang

等人赞同

我是一名大四的学生,在去年暑假的时候我们实验室为一家公司做了一个导购网站,其中用户评论挖掘这部分是一个特点,当时淘宝、京东等各大电商网站还没有或者刚刚开始注意到用户评论的这个点。我做的就是用户评论挖掘这一部分,主要是对每一件商品的每一条评论进行处理,最后得到每件商品的优缺点(以标签的方式呈现,算是短摘要)以及关于该商品的优缺点长摘要(摘要是根据每件商品下的评论得到的,较客观)。主要步骤是:
1、得到每件商品的所有评论。
2、对每条评论进行分词
3、对分词后的词语配合本地的词库进行聚类,形成语料库。这一步说的简单点就是将所有的同义词归为一类。比方说,价格 价位 价钱 售价归为价格这一类。
4、建立情感词,主要是形容词和副词的情感语料库。
5、根据情感词以及情感词位置判断分句的情感取向。
6、标记属性词和情感词的位置,为以后高亮显示做准备。
另外,我们还做了商品推荐、评论质量排序等功能。由于我们只是做了手机、平板电脑两种商品,所以较简单一些,其中一些可能还不够准确。演示地址http://www.daxiashuo.com

编辑于 2014-06-21

18 条评论

感谢

分享
收藏

?

没有帮助

?

举报


赞同
6


反对,不会显示你的姓名

知乎用户,手写客论坛:http://shouxieke.net

收起

郭济菘张晓烨、知乎用户

等人赞同

根据电话咨询淘宝客服得知,同一个关键词或者同一个意思的词语达到8个就会出现“大家印象”

还是根据关键词来进行的,不过现在还不够智能,很多时候会误读买家的原意。

收到两天了,包包非常好,因为没里布,所以一看就是真皮的,摸起来都不一样,哈哈!不过我觉得掌柜的图片没拍好,有点显得生硬,实物漂亮可爱很多。很喜欢。。掌柜的祝福贺卡字好漂亮,以后看到喜欢的还来你这买!

我这条评价就由于粗体字部分,就被归类为态度不好,不过过了几天就没有这个归类了,系统也在慢慢进化和升级,整体上我觉得这个功能还是很不错的。误读率还是比较小的,能较为全面地归纳买家评价。
显示全部

发布于 2013-04-01

添加评论

感谢

分享
收藏

?

没有帮助

?

举报


赞同
3


反对,不会显示你的姓名

知乎用户,金融行业挨踢人士

收起

徐静、知乎用户、许小平

赞同

-
类似隐性的搜索引擎,关键字作为索引字段,高亮显示
分为两大部分,一是索引的创建,二是根据关键字进行搜索
创建索引
1.收集原文档(Document)
即用户添加的评论
2.将原文档传给分词组件(Tokenizer)
将评论分成一个个单独的词,去除标点符号,去除停词
3.将得到的词元(Token)传给语言处理组件(Linguistic Processor)
这里的语言处理组件会对相近词进行判断,比如题目里的“系统流畅”
4.得到的词(Term)传给索引组件(Indexer)
根据步骤3得到的词,由索引组件建立倒排列表

搜索
1.获取关键字
一般我们的搜索根据用户随意输入,这里对索引字段进行统计后排名靠前的展示,用户只要点击即可
2.使用创建索引时候的分词组件和语言处理组件对关键字进行转义
3.使用转义后的关键字从倒排列表中的索引进行匹配
4.匹配到的评论进行解析,和关键字相近词加上高亮标签,返回前端展示

以上,一个非淘宝人士的回答,如有雷同,纯属巧合
-

发布于 2013-04-03

添加评论

感谢

分享
收藏

?

没有帮助

?

举报


赞同
0


反对,不会显示你的姓名

吴夙慧,努力学习,努力工作

收起

不知道具体的细节,怀疑用了共词分析,如果有很多评论都出现了“质量”和“不错” 两个词,则可以生成“质量不错”这个label。 进一步的,还需要建立同义词的网络,比如“不错”和“好”同义,因而某个评论中出现“质量”和“好”,则也可以归入这类。 这个feature的实现其实是一个句子的聚类。

编辑于 2013-11-20

添加评论

感谢

分享
收藏

?

没有帮助

?

举报


赞同
1


反对,不会显示你的姓名

张成泽

收起

罗韧

赞同

分词、除噪、汇总
精辟解答

发布于 2013-05-03

添加评论

感谢

分享
收藏

?

没有帮助

?

举报


赞同
6


反对,不会显示你的姓名

大海胖胖,码农,互联网公司供职,关注互联网和电商

收起

段瀚叶峰黄良懿

等人赞同

分词、除噪、汇总

发布于 2013-04-01

3 条评论

感谢

分享
收藏

?

没有帮助

?

举报


赞同
0


反对,不会显示你的姓名

韩启群,热衷极客文化,乐于探索,喜欢挑战——数…

收起

我觉着可能会用到Latent Semantic Analysis。

该算法具体实现细节不是很了解,可是在一个项目中(Latent Semantic Analysis Helps Assess Health Concerns of Military Personnel)发现此算法专门用来归纳不可能结构化的回答,也就是那些open-ended reponses.这正好也符合了买家评论的特性。

发布于 2013-06-22

添加评论

感谢

分享
收藏

?

没有帮助

?

举报


赞同
0


反对,不会显示你的姓名

知乎用户,产品经理

收起

分词是必须的,自然语言理解也是很重要的吧,nlp

发布于 2013-07-30

添加评论

感谢

分享
收藏

?

没有帮助

?

举报

2 个回答被折叠
为什么?

修改

我来回答这个问题

写回答…

拖拽至此处上传

想用 @ 提到谁?

我要回答

清除草稿

匿名 发布回答

来自为知笔记(Wiz)

时间: 2024-08-26 18:19:32

淘宝的评论归纳是如何做到的? - 社交网络 - 知乎的相关文章

利用PHP从淘宝采集评论和成交数据

如果不想通过淘宝开放平台API获取数据,那么另外一个很好的办法就是采集了.一般来说,采集一个网页上的内容,只需要用CURL获取源代码,然后用正则表达式取出需要的内容就可以,不过如果这样载入一个淘宝的页面,会 如 果不想通过淘宝开放平台API获取数据,那么另外一个很好的办法就是采集了.一般来说,采集一个网页上的内容,只需要用CURL获取源代码,然后用正则表 达式取出需要的内容就可以,不过如果这样载入一个淘宝的页面,会发现根本没有评论和成交数据,直接查看源代码可以看到评论的是空的.分析页面后发现,淘

Python爬虫 获得淘宝商品评论

自从写了第一个sina爬虫,便一发不可收拾.进入淘宝评论爬虫正题: 在做这个的时候,也没有深思到底爬取商品评论有什么用,后来,爬下来了数据.觉得这些数据可以用于帮助分析商品的评论,从而为用户选择商品提供一定的可参考数据. 找评论所在真实url:有了前面爬搜狗图片的经验,面对找资料的url这件事,找他的速度是比第一次快了不少.首先进宝贝页面,如图 发现评论与搜狗图片类似,均为动态刷新.因此,F12(开发者选项)>>Notework>>F5(刷新)>>feedRateLis

python爬取ajax动态生成的数据 以抓取淘宝评论为例子

在学习python的时候,一定会遇到网站内容是通过ajax动态请求.异步刷新生成的json数据的情况,并且通过python使用之前爬取静态网页内容的方式是不可以实现的,所以这篇文章将要讲述如果在python中爬取ajax动态生成的数据. 至于读取静态网页内容的方式,有兴趣的可以查看博客内容. 这里我们以爬取淘宝评论为例子讲解一下如何去做到的. 这里主要分为了四步: 一 获取淘宝评论时,ajax请求链接(url) 二 获取该ajax请求返回的json数据 三 使用python解析json数据 四

用PHP抓取淘宝商品的用户晒单评论+图片实例

为什么想起来做这个功能?是因为前段时间在做一个淘客网站的时候,想到是否能抓取到淘宝商品的买家秀呢?经过一番折腾发现,淘宝商品用户评价信息是通过Ajax来调取的,通过嗅探网址发现,评论数据的请求接口是: https://rate.tmall.com/list_detail_rate.htm?itemId=524394294771&spuId=341564036&sellerId=100414600&order=3&currentPage=1&append=0&

Python的几个爬虫代码整理(网易云、微信、淘宝、今日头条)

整理了一下网易云歌曲评论抓取.分析好友信息抓取.淘宝宝贝抓取.今日头条美图抓取的一些代码 抓取网易云评论 进入歌曲界面: http://music.163.com/#/song?id=453185824 找到如下的数据源: 贴一段Lyrichu的代码: (运行环境为P2.7) # -*- coding: utf-8 -*-# @Time : 2017/3/28 8:46# @Author : Lyrichu# @Email : [email protected]# @File : NetClou

python推荐淘宝物美价廉商品 2.0

改动: 新增功能 :可选择只看天猫或淘宝 代码模块化封装,参数配置或输入单独在一个py文件管理,主函数功能只留出参数传入在setting配置的py文件里. main.py代码: 1 # -*- coding: utf-8 -*- 2 import urllib 3 import urllib2 4 import re 5 import time 6 import random 7 import os 8 from math import log 9 from math import log10

python推荐淘宝物美价廉商品

完成的目标: 输入搜索的商品 以及 淘宝的已评价数目.店铺的商品描述(包括如实描述.服务态度.快递的5.0打分): 按要求,晒选出要求数量的结果,并按"物美价廉算法"排序后输出 思路: 1,利用淘宝搜索'https://s.taobao.com/search?'的价格filter 先进行价格筛选,得到结果的网站 2,用urllib打开结果网站,构造正则表达式匹配出各个商品结果的 价格.已评价数量.店铺的如实描述等信息: 并把结果保存至二维数组里. 3,利用商品及店铺信息,用"

京东是大石、淘宝是碎石与水——论市场空间的无穷性

       一.思考缘由: 看了京东上市后接受优米采访的视频,刘强东在采访中不断强调他们在做的是一个物流平台而不单纯是电商平台,只有将商品的物流做到集中化,才能最大程度的降低交易成本从而优化社会资源配置.        二.故事: 记得之前有个故事,就是给一个瓶子,可将大石头放进去,放满后再放小石子,最后再放沙.沙满了之后,以为满了,但是还能倒进一部分水.但是将同样的东西拿出来后,逆序放却发现放不了. 这告诉我们一个道理:...吃自助餐不能先喝饮料.呵呵. 这当然是个冷段子.但是却告诉我们,在

网红淘宝店的成与败

近年来,随着直播的人气火热上升,越来越多的网红出现在我们的眼前.很多人都想成为网红,为什么呢?因为他们有人气,有喜欢自己的粉丝,而他们能通过这些粉丝和人气来获取利益,例如通过自己的人气接广告或卖东西给喜欢自己的粉丝.这就是为什么淘宝里有越来越多的网红店,他们通过自身的人气效应给自己打广告,在直播或博客中秀出自己店里的商品. 想要了解网红淘宝店的成与败,我们先来谈论网红淘宝店的运营方式.网红淘宝店当然老板是网红,但其实在幕后有一个操作团体,他们不仅起到封装网红的作用,还帮他们进货出货,网红只要负责