语言统计学中的几个定律,可作为设计检索的参考

30定律:出现频率最高的30个词占全文本总词数的30%

如果剔除150个最高频率的词(由于df过大被认为是停用词):倒排表记录总个数会减少25-30%

Zipf定律: 在自然语料库中所有term的freq(频度)排名和其freq(频度)的乘积大致是一个常数

freq_NO1 * 1 = freq_NO2 * 2 = freq_NO3 * 3 = freq_NOn * N

那也就是说排名第二多的词的频度是第一多的一半,排名第三的词频度是第一的1/3,这样以此类推

heaps定律,在自然语料库中不重复term的个数和语料库数据量成指数关系

因为是指数关系,可以知道下面几个特征

1 文档数无限增大,不重复term的个数也不会趋于一个常数

2 随着文档数的增加,不重复term的增长率会有所下降,增长率渐渐趋于平稳

Benford law:在自然形成的十进制数据中,任何一个数据的第一个数字d出现的概率大致log10(1+1/d)

时间: 2024-10-15 18:35:26

语言统计学中的几个定律,可作为设计检索的参考的相关文章

Cocos2d-x 脚本语言Lua中的面向对象

Cocos2d-x 脚本语言Lua中的面向对象 面向对象不是针对某一门语言,而是一种思想.在面向过程的语言也能够使用面向对象的思想来进行编程. 在Lua中,并没有面向对象的概念存在,没有类的定义和子类的定义.但相同在Lua中能够利用面向对象的思想来实现面向对象的类继承. 一.复制表的方式面向对象 --Lua中的面向对象 --[[ 复制表方式面向对象 參数为一张表.通过遍历这张表取值,赋给一张空表,最后返回新建的表.来达到克隆表 ]] function clone(tab) local ins =

1.5Java语言(JDK中的命令行工具)

1.3.4 配置环境变量path(1)  在dos命令行中敲入javac,出现错误提示.  错误原理:当前执行的程序在当前目录下如果不存在,windows系统会在系统中已有的一个名为path的环境变量指定的目录中查找.如果还没有找到,就出现以上的错误提示.  所以进入到jdk安装路径\bin目录下,执行javac.看到javac参数提示信息. 1.5Java语言(JDK中的命令行工具),布布扣,bubuko.com

洞悉find中的德摩根定律和条件权限perm

1.德摩根定律 (1)初悉德摩根定律儿 在命题逻辑和逻辑代数中,德·摩根定律(或称德·摩根定理)是关于命题逻辑规律的一对法则. 奥古斯塔斯·德·摩根首先发现了在命题逻辑中存在着下面这些关系: 非(A 且 B) = (非 A) 或 (非 B)非(A 或 B) = (非 A) 且 (非 B) (2)图解德摩根定律 1>.非(A or B) = (非 A) and (非 B) 约定以下图中矩形代表全部,圆A和圆B是矩形的一部分并有部分相交 1)A or B,如下图中的黑色部分:     属于A或者是属

在R语言环境中无法载入rJava包的解决办法

问题描述: 安装包xlsx包后,运行library("xlsx")后弹出错误窗口: RGui (64-bit): Rgui.exe - 系统错误 无法启动此程序,因为计算机中丢失 jvm.dll.尝试重新安装该程序以解决此问题. 在R语言环境中的错误是: 载入需要的程辑包:rJava Error : loadNamespace()里算'rJava'时.onLoad失败了,详细内容: 调用: inDL(x, as.logical(local), as.logical(now), ...)

R语言学习中的小bug:R中矩阵相乘错误于A %*% B: 需要数值/复数矩阵/矢量参数

遇到了小bug: R中矩阵相乘错误于A %*% B: 需要数值/复数矩阵/矢量参数 看到网上别人的做法,发现了用class(A)和class(B)之后才发现,是因为读入的时候数据的类型不对,A.B的类型并不是matrix,才导致了这个问题. 用as.matrix来变型一下,就OK了. R语言学习中的小bug:R中矩阵相乘错误于A %*% B: 需要数值/复数矩阵/矢量参数,布布扣,bubuko.com

统计学中z分布、t分布、F分布及χ^2分布

Z就是正态分布,X^2分布是一个正态分布的平方,t分布是一个正态分布除以(一个X^2分布除以它的自由度然后开根号),F分布是两个卡方分布分布除以他们各自的自由度再相除比如X是一个Z分布,Y(n)=X1^2+X2^2+--+Xn^2,这里每个Xn都是一个Z分布,t(n)=X/根号(Y/n),F(m,n)=(Y1/m)/(Y2/N)各个分布的应用如下:t分布应用在估计呈正态分布的母群体之平均数. t分布是小样本分布,t分布适用于当总体标准差R未知时用样本标准差s代替总体标准差R,由样本平均数推断总体

统计学中的自由度

数理统计研究问题的方式,不是对所研究对象的全体(称为总体)进行观察,而是抽取其中的部分(称为样本)进行观察获得数据(抽样),并通过这些数据对总体进行推断.数理统计方法具有“部分推断整体”的特征. 数学中的自由度一般是指能够自由取值的变量个数.数理统计中的自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数,自由度通常记为df.数理统计上的这个定义可以从如下几个方面来理解: 第一,“统计量”(如样本数据的平均数X.样本数据的标准差)是研究者通过调查样本的数据人为地计算出

C语言循环中减少判断——————【Badboy】

为了让编译器更好地优化循环,应该尽量让循环中减少判断,方法之一是将判断语句整合进表达式.还是这个例子: for (int i = 0; i < 1000*10; i++) { sum += data[i/1000][i%10]; } 假如我们需要加一个判断,只有非负整数才需要作求和运算: for (int i = 0; i < 1000*10; i++) { if (data[i/1000][i%10] >= 0) sum += data[i/1000][i%10]; } 下面将这个判断

隐含马尔可夫模型在语言处理中的应用

终于下定决心要了解一下马尔科夫链了.当然经典的那个tutorial必是参考文献,另外找了一个浙大教授写的PPT,很不错,用中文讲tutorial的东西理出来了.下面这篇文章写的也不错. http://googlechinablog.com/2006/04/blog-post_17.html转自上述地址的一篇文章数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用2006年4月17日 上午 08:01:00 发表者:吴军,Google 研究员 前言:隐含马尔可夫模型是一个数学模型,到目前为之