外交部发言人发言语料简单分析

花了点时间，把外交部网站上的发言人表态一栏中的数据全部抓取下来，按照一定的格式保存于文件中，时间范围是2010-09-14～2014-06-18，如果跑在服务器上的话，可以做增量更新，即若有更新每天下载一篇新的文章。我国的外交部发言人制度是在1983年3月1日开始设立的，但是外交部网站上公布的数据好像只有我拿到的这些。

文件格式如图：

(声明：本人只是想把这些答记者问的对话当作自然语言处理的语料，进行学习。)

从这些文本中统计出如下信息;

发言人出场的次数

姓名次数

洪磊 458

华春莹 175

刘为民 117

秦刚 98

姜瑜 90

马朝旭 62

发言长度最长和最短

2011年4月19日外交部发言人洪磊举行例行记者会1580

2014年2月27日外交部发言人华春莹主持例行记者会 1277

发言中出现的词数，由多到少，前50位(去除了一些停用词)：

中方 10074

中国 5248

问 4992

答 4350

对此 2772

合作 2727

发展 2261

和平 2203

各方 1944

希望 1891

稳定 1883

对话 1720

国家 1643

叙利亚 1623

日本 1557

中 1536

维护 1523

地区 1436

推动 1415

外交部 1284

据报道 1281

两国 1198

国际 1171

方 1100

应 1089

日方 1030

国际社会 1014

愿 1014

解决 996

关系 986

局势 978

支持 971

介绍 952

立场 902

钓鱼岛 901

战略 898

情况 894

美国 890

总理 889

已 889

努力 883

访问 881

称 876

请 872

总统 866

领导人 865

外交部发言人发言语料简单分析的相关文章

FFmpeg源代码简单分析：avformat_alloc_output_context2()

本文简单分析FFmpeg中常用的一个函数:avformat_alloc_output_context2().在基于FFmpeg的视音频编码器程序中,该函数通常是第一个调用的函数(除了组件注册函数av_register_all()).avformat_alloc_output_context2()函数可以初始化一个用于输出的AVFormatContext结构体.它的声明位于libavformat\avformat.h,如下所示. /** * Allocate an AVFormatContext

实时计算，流数据处理系统简介与简单分析

转自:http://www.csdn.net/article/2014-06-12/2820196-Storm 摘要:实时计算一般都是针对海量数据进行的,一般要求为秒级.实时计算主要分为两块:数据的实时入库.数据的实时计算.今天这篇文章详细介绍了实时计算,流数据处理系统简介与简单分析. 编者按:互联网领域的实时计算一般都是针对海量数据进行的,除了像非实时计算的需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级.实时计算的今天,业界都没有一个准确的定义,什么

java基础---->hashSet的简单分析(一)

对于HashSet而言,它是基于HashMap实现的,底层采用HashMap来保存元素的.今天我们就简单的分析一下它的实现. HashSet的简单分析一.hashSet的成员变量组成 public class HashSet<E> extends AbstractSet<E> implements Set<E>, Cloneable, java.io.Serializable private transient HashMap<E,Object> map;

FFmpeg的HEVC解码器源代码简单分析：解析器（Parser）部分

上篇文章概述了FFmpeg中HEVC(H.265)解码器的结构:从这篇文章开始,具体研究HEVC解码器的源代码.本文分析HEVC解码器中解析器(Parser)部分的源代码.这部分的代码用于分割HEVC的NALU,并且解析SPS.PPS.SEI等信息.解析HEVC码流(对应AVCodecParser结构体中的函数)和解码HEVC码流(对应AVCodec结构体中的函数)的时候都会调用该部分的代码完成相应的功能. 函数调用关系图 FFmpeg HEVC解析器(Parser)部分在整个HEVC解码器中的

x264源代码简单分析：熵编码（Entropy Encoding）部分

本文记录x264的 x264_slice_write()函数中调用的x264_macroblock_write_cavlc()的源代码.x264_macroblock_write_cavlc()对应着x264中的熵编码模块.熵编码模块主要完成了编码数据输出的功能. 函数调用关系图熵编码(Entropy Encoding)部分的源代码在整个x264中的位置如下图所示. 单击查看更清晰的图片熵编码(Entropy Encoding)部分的函数调用关系如下图所示. 单击查看更清晰的图片从图中

u-boot分析（十一）----MMU简单分析|u-boot分析大结局|学习规划

u-boot分析(十一) 通过前面十篇博文,我们已经完成了对BL1阶段的分析,通过这些分析相信我们对u-boot已经有了一个比较深入的认识,在BL2阶段大部分是对外设的初始化,并且有的我们已经分析过,在这篇博文我打算对BL1阶段没有分析到的重要外设进行简单分析,并结束对u-boot的分析,同时对后面自己的博文进行简单的规划,希望有兴趣的朋友跟我一块学习和研究嵌入式. 今天我们会分析到以下内容: 1. MMU分析(内容出自我以前的博客) 2. 裸机开发总结 3. 后期

Collections中sort()方法源代码的简单分析

Collections的sort方法代码: public static <T> void sort(List<T> list, Comparator<? super T> c) { Object[] a = list.toArray(); Arrays.sort(a, (Comparator)c); ListIterator i = list.listIterator(); for (int j=0; j<a.length; j++) { i.next(); i.

netback的tasklet调度问题及网卡丢包的简单分析

最近在万兆网卡上测试,出现了之前千兆网卡没有出现的一个现象,tasklet版本的netback下,vm进行发包测试,发现vif的interrupt默认绑定在cpu0上,但是vm发包运行时发现host上面cpu1, cpu2的ksoftirqd很高. 从之前的理解上来说,包从netfront出来通过eventchannel notify触发vif的irq处理函数,然后tasklet_schedule调用tx_action,通过一系列处理流程把包发给网卡.所以vif的interrupt绑在哪个cpu

搜索引擎原理之链接原理的简单分析

在google诞生以前,传统搜索引擎主要依靠页面内容中的关键词匹配搜索词进行排名.这种排名方式的短处现在看来显而易见,那就是很容易被刻意操纵.黑帽SEO在页面上推挤关键词,或加入与主题无关的热门关键词,都能提高排名,使搜索引擎排名结果质量大为下降.现在的搜索引擎都使用链接分析技术减少垃圾,提高用户体验.下面泡馆史明星就来简单的介绍链接在搜索引擎排名中的应用原理. 在排名中计入链接因素,不仅有助于减少垃圾,提高结果相关性,也使传统关键词匹配无法排名的文件能够被处理.比如图片.视频无法进行关键词匹配