自然语言处理是人工智能的一大分支,本文简要介绍自然语言处理的基本内容,作为总结。
用自然语言与计算机通信,这是人们长期以来所向往的。这主要有两点好处,第一:人们不再需要学习各种计算机语言,直接使用自己平时所熟悉的语言就好了。第二:让人们更加深入的了解人类语言能力和智能的机制。 实现这个既需要计算机能够理解人们表达的意思,又能够组织词汇进行表意输出从而完成对话。现在实用的自然语言处理的系统有:多种数据库和专家系统的自然语言的接口、各种机器翻译系统、全文检索系统、自动文摘系统等,但是这些系统所达到的效果距离人们所期望的“人机对话”距离还十分遥远,目前实现的都是些基本的功能。
实现人机之间的自然语言通信最核心的问题是:自然语言文本和对话的各个层次上存在各种各样的歧义性。歧义现象的存在使得消除他们需要大量知识与推理。更深层次上要求我们先弄明白:人类大脑是如何进行语言的模糊识别和逻辑判断。
自然语言处理基础理论:自动机、形式逻辑、统计机器学习、汉语语言学、形式语法理论
语言资源:语料库、词典
关键技术:汉子编码、词法分析、句法分析、语义分析、文本生成、语音识别
应用系统:文本分类和聚类、信息检索和过滤、信息抽取问答系统、拼音汉字转换系统、机器翻译、新信息检索等
争论:发展限制的解决办法有两个方向:1.语言学家倾向于创新基础理论 2.工程师倾向于由已有的方法的完善和优化
难点:1.单词的边界界定 我们知道在口语中,字与字之间是没有刻意的停顿的,我们之所以明白意思是因为我们的大脑对听到的字进行了编排划分成最恰当最合适的组合。在书写上同样如此。
2.词义的消除歧义 同一个单词有不同的意思,我们需要选取单词最为通顺的解释
3.句法的模糊性 自然语言的文法通常是模棱两可的,针对一个句子的词语可以编排出不同的逻辑意义出来,我们必须根据前后文来确定最合适的意义。
4.有瑕疵和不规范的输入 遇到方言就呵呵了
5.语言行为与计划 这个主要是语义上的理解与未来的执行。比如说“你能帮我拿一本书嘛?” 直接拿一本书过去要比回答“能”好。就算回答“不能”或者“太远了我拿不到”都比回答“能”然后待着不动要好。 再者,如果一门课程上一年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要比回答“没人没通过”好。
总括性的介绍完之后,来细致的认识自然语言处理的技术里程碑。
参考阅读:[1]自然语言处理技术的三个里程碑 微软亚洲研究院 黄昌宁 张小凤 2002.5
[2]http://baike.baidu.com/view/18784.htm 百度百科之自然语言处理