汉语语法

为了更好的促进自然语言处理的发展:包括分词、文本分类、命名实体识别、句法分析、信息抽取、知识库构建、主题词识别、自动摘要、智能问答、语义理解、对话生成、话题推荐、语言模型、机器翻译、语义表示等方面在中文中的快速发展和广泛使用,必须很好的掌握汉语语法知识以及汉语词义网络的构建。本篇主要介绍汉语语法,汉语词义网络的构建在以后补充。

维基百科:从以下几个方面做主要介绍。语序、语素、词、词组或短语、句子、时貌(英语时态)、句群等方面

语序

汉语语序如下:

  • 基本语序:主词─动词─受词(SVO),有些补语(如许多“介词”词组和以“地”结尾的副词等)置于动词前,有些置于受词后
  • 介词”有些为前置词(如“在”、“从”等),有些为后置词(如“上”、“中”、“下”、“前”等),前置之“介词”很多为所谓的伴动词(Coverb)
  • 数词形容词指示词关系子句等置于被修饰词前方

语素

在现代汉语里,语素是最小的语音语义结合体,是最小的语言单位。“一个语言片段,一层一层的切分,分到不能再分的最小的单位,就是语素。”例如,“树胶”这个词可以分成“树”与“胶”两个语素,有“树木所产生的胶汁”之意。

在汉语里,大多数的单字同时也是一个语素,例如:“我、他、家、飞、跟、动、太、是、日、月、过、了、着、啊、呀”等等;不过,有些语素由两个以上的汉字组成,如“蜻蜓”、“葡萄”等,因为当“蜻”与“蜓”、“葡”与“萄”分开时,并不会带来任何含义,或者单字语素的含义和前者没有直接关系,如“葡”(葡萄牙的简称)与“葡萄”(一种水果)。

一些二字单词如“马虎”也是一个语素,因为“马虎”(形容草率)拆成“马”与“虎”时,“马”与“虎”这两个字所带的语素含义和“草率”没有关系。还有许多外来音译词,如:“巧克力、维基、英格兰、葡萄牙”等等也是不能再拆分的语素。

有些语素可以单独成词,如:“我、家、有、个、大”等等,称为单纯词,也可以和其他语素合成一个新的词,如:“我们、家庭、没有、三个、大象”等等,称为合成词。还有许多不能单独成词的语素,即不自由语素半自由词素

依音节位数来划分,可分为:

  • 单音节语素
  • 双音节语素
  • 多音节语素
  • 非音节语素

依构词能力来划分,可分为:

  • 自由语素
  • 半自由语素
  • 不自由语素

汉语词类,有别于其它语言,特别是汉语作为意音文字,更有别于拼音文字。汉语词性也和其他语言有共性,词语可以拥有两种或以上词性,从文法的角度来看,和其他语言之间共有的基本词类有动词名词代词形容词副词介词连接词等。

词的分类

汉语词类没有统一的划分标准,分类方法很多,基本上可按照音节形式、内部结构及语法功能三方面来分类。

  • 音节形式:可以分为单音节词、双音节词和多音节词。
  • 内部结构:只由一个语素构成的词称为单纯词,由两个或以上语素构成的词称为合成词
  • 语法功能:按语法功能区分的类别称为词类,基本分为实词虚词两大类:
    • 实词:名词、动词、形容词、状态词、区别词、数词、量词、代词
    • 虚词:副词、介词、连词、助词、拟声词、叹词。

词的歧义

一个词在没有语境的情况下不能只按字面意义解释,以构词法组成的词,其含义虽和构词语素有一定联系,但也不能逐字理解。

词组/短语

短语可由两个或以上的词所组成,也可以由较小的短语结合成为较大的短语。短语如果不加上语调,就不算是句子。短语按其成分的语义关系,可分为并列短语同位短语偏正短语动宾短语谓补短语主谓短语连动短语兼语短语介宾短语等。

短语的语义关系类型 语义关系
并列(联合)短语 两个或以上的词语的并列,之间可能以连词连接 “我和他”、“美丽聪慧”、“高大威猛”、“唱歌跳舞”、“又唱又跳”、“一边走路,一边赏花”、“陆地与海洋”
同位短语 两个或以上的词语、从不同角度指同一事物,亦有互相补充说明之作用 “我们两个”、“咱们仨”、“宝岛台湾”、“世界最长的建筑物——万里长城”、“马来西亚首都吉隆坡”、“诗仙李白”、“诗圣杜甫”、“东方之珠香港”
偏正短语 前面的词语修饰、描述后面的中心词,中间可能有结构助词“的”、“地”等 “我(的)妈妈”、“美丽(的)上海”、“美国(的)总统”、“我(的)家”、“高兴(地)说”、“台湾(的)作家龙应台”
述宾短语 前面的动词支配后面的词(宾语) “看书”、“唱歌”、“洗衣服”、“编写新书”、“做蛋糕”、“听歌”、“穿越森林”
述补短语 后面的词(补语)补充前面的动词,中间可能有结构助词“得”连接 “吓坏”、“打破”、“打死”、“看得入神”、“笑成一团”、“走得快”、“变得不像样”
主谓短语 在后的成分(谓语)对在前的主语作出陈述 你开始哭了、他坚持离去、小明没有带东西;斜体字部分为主谓短语。
连动(连谓)短语 两个或以上连续、接连而下动作。不同于并列短语,两个动作先后紧接着进行 “开门出去”、“拿起书包开门出去”、“起立行礼”、“提笔写字”、“拿起来看看”
兼语短语 由动宾短语与主谓短语组合起来的短语。中间的成分既是前者的宾语,也是后者的主语 “叫他出去”、“抓他出来”、“哄孩子睡觉”、“供一家吃饭”、“教学生读书”
介宾短语 由介词(在前)前置于其他成分而组成,使该成分在句中充当状语 在家里睡觉

“的地得”

此处讨论“的”“地”“得”三个词是指汉语中特殊的连接词,并非用作介词和语气助词。

严格的说这三个字并不算词语,而是程度状态连接语素。

“的”字用法

用于连接形容词(或表示状态的短语)和其后被作用的词语,可以是名词、代词、动词(做名词时)、形容词、短语等。“的”字前面的词语用来修饰、限制“的”后面的事物,表示“的”后面的事物怎么样。

而名词和代词后面用“”表示所有和归属,与上述不同。

例:

  • 蓝蓝的天(形容词+的+名词,定语修饰、限定中心语)
  • 可爱的你(形容词+的+代名词,定语修饰、限定中心语)
  • 漫无目的的搜索(状态短语+的+动名词,此时“搜索”为名词,如:探险队在森林里作出一次漫无目的的搜索。)
  • 可供查证的参考来源(状态短语+的+名词性短语)
  • 漂亮的蓝(形容词+的+形容词,在这种结构下,“蓝”起名词的作用)
  • 我的笔(名词+的+名词)

“地”字用法

状态词或状态短语+地构成状语,其后连接被作用的词语,主要是动词和动词短语。A+地+B的结构,表示动作B以状态A进行着。

“地”在一般使用中有时混淆成“的”,一些人认可“的”代替“地”(因为在汉语中,动作本身可以被看作是一个名词),但仍为其他人视作错。另外,“地”字也经常省略。

例:

  • 飞快地跑开了(副词+动词短语,状语修饰中心语)
  • 紧张地耕作(副词+动词,状语修饰中心语)
  • 漫无目的地搜索(状态短语+地+动词,此时“搜索”为动词,如:探险队在森林里漫无目的地搜索。)
  • 高兴地跳起来(副词+动词短语,此时“跳起来”是动词短语,表示动作,如:第二个动作还没完成,他就高兴地跳起来。)

“得”字用法

用于连接动词、副词、形容词、或表示状态的短语(但不能是名词、代词、数词、量词等以及不能表现状态的短语)和其后被作用的词语,主要是形容词和副词以及状态短语。“得”字后面的词语用来补充、修饰、限制“得”前面的动作或状态,说明“得”前面的词语怎么样,多是表示前面词语的程度,可以部分看作是“地”的反转结构。

例:

  • 跑得快(动词+副词,补语)
  • 扔得很远(动词+形容词,补语)
  • 你的背包旧得很好看(形容词+形容词短语,补语)
  • 高兴得跳了起来(副词+动词短语,此时“跳了起来”是状态短语,表示动作,用于修饰“高兴”,如:所有动作完成后,他禁不住高兴得跳了起来。)

三者的语境

三者可以简单地认为:

“的”字表示事物的状态,强调的是“的”字前面的词语,定语修饰、限定中心语;

“地”字表示状态的补充,强调的是“地”字前面的词语,状语修饰,限定中心语;

“得”字表示动作的状态,强调的是“得”字后面的词语,补语

句子

句子分为单句及复句。单句分为主谓句及非主谓句。

主谓句

主谓句是由主谓短语带上一定的语调构成的句子

根据谓语词性不同,主谓句可分为名词谓语句、动词谓语句、形容词谓语句、主谓谓语句四种类型。其中,主谓谓语句是由主谓短语充当谓语的主谓句。

如果根据主语的存废来划分,主谓句又可分为完全主谓句和不完全主谓句。

完全主谓句

“完全主谓句”就是指句子里有主谓结构并且主谓部分都显现出来,没有被省略的句子。例如:

小强被金钱龟吃了

“被金钱龟吃了”的谓语部分就是对主语“小强”的陈述了。

不完全主谓句

“不完全主谓句”是指句子里有主谓结构,但主语谓语部分可能在特定的语境里承前或蒙后省略了,没全都显现出来的句子。例如:

毛小慧问道:“谁被金钱龟吃了?”

余乐天凄然叹喟:“小强!”

要注意的是,“不完全主谓句”里,被省略的主语谓语成分并非不存在,只是在特定语境里,为简炼而省略了,我们是可以按文意酌情补回省略了的主、谓部分而不影响文意的。上例“小强。”便是“不完全主谓句”,我们能按文意补上“~被金钱龟吃了”使之变成“完全主谓句”而意义不变的,但因为承前文毛小慧的问话,不说自明,所以省去谓语部分更好。

非主谓句

“非主谓句”跟“不完全主谓句”外观上相似,不过跟“不完全主谓句”不同,“非主谓句”之所以不呈现主谓结构,并非因为在特定语境承前蒙后而把主语或谓语略省了,而是因为“非主谓句”的确是没有主谓结构的句子,这是“不完全主谓句”和“非主谓句”的根本分别。譬如,有时在特定场合里,我们在没有上文下理的情况下,带语调地喊一句“小强。”(或“小强!”或“小强?”,或惊恐或欢欣,视乎喊“小强”的是余乐天还是毛小慧),也能表达一个完整的意思。这不是主语或谓语的省略,而是根本无需补出主谓结构。我们虽然可以任意为“小强”补上语境或其他句子成分使之成为主谓句,但无论补上什么,原句的语意都一定会被改变。也就是说,改了以后,也是另一句句子。我们根本无法在原句本义不变的情况下补出一个合适的主谓结构来。“不完全主谓句”和“非主谓句”的分别就在此显明了。

复句与分句

复句由分句构成(“分句”也有称为“单句形式”)。有异于短语之于句子,分句在句子里并不互为句子成分,而且,各分句均已具备单句的形式(可以是单句的主谓句形式或非主谓句形式)。

当然,这独立性只是相对短语而言。“单句形式”的独立性还是逊于“单句”的。

我们试以“复句会使用关联词语,单句不使用关联词语”这句为例。这复句的两个分句都具备了单句的形式,它们各自是一个完备的主谓句结构,且分句与分句之间也只是并列关系,并不存在主谓宾定状补等句子成分关系。假使独立出来,观之亦与一句完整的单句无异。假使我们把上例两个单句形式单独运用来表述意思时,它们是就是两句单句,可以各自有完整的语调。

当然,作为复句,合读时自有复句的句调,不可割裂。复句里的分句,也不具备完整的意义,不可独立应用,不足表述一个完整自足、不用补充的概念。

复句的基本类型有:1、并列复句,2、承接复句,3、递进复句,4、选择复句,5、转折复句,6、假设复句,7、因果复句,8、条件复句,9、解说复句,10、目的复句。

把字句与被字句

把字句

该句型是属于宾语前置的一种情况,在现代汉语中,一个完整的句子是比较严格的遵循“主+谓+宾”的顺序结构的。该种句型来自于古汉语,“把”字是将宾语提前的一个特征,成为“主+‘把’+宾+谓”的语序,亦可将“把”看作是谓语,而后的动词看作是谓语补足语。可以认为“把”的语义与英语中的“take to”相同。 等同于“把”字的动词还有“将”“拿”等,但语境更为书面化(特别是“拿”字句)。

例:

  • 小明把鼠标拿到手中。
  • 病毒把系统破坏了。
  • 我手持钢鞭将你打了。
  • 请将书翻到53页。
  • 他将旗子举起。
  • 夕阳将傍晚的天空照得通红。
  • 午时三刻拿重犯开刀问斩。
  • 我将拿你是问!(此处的“将”代表将来语态)

被字句

被字句在汉语当中用表示被动语态,此时的次序为“宾+‘被’主+谓”,亦可将被字句看作与把字句相似的句型,二者都是将谓语后置(如果将受动者看成是主语的话)。

但与把字句不同的是:被字句可以省略掉主语,亦可省略“被”字(本句话完整的表达为“被字句可以被省略掉主语,亦可被省略掉‘被’字”,但这样不太符合汉语的一般表达)。

汉语中的被字句与英语中的“被动语态”一样。

“被”字也可以用“遭”“叫”“让”“给”字代替(多出现在方言或口语当中,相对少见)以及“为”“受”字代替(多用于书面语和古文)。

例:

  • 我被打了。(省略主语)
  • 我被他打了。
  • 我遭他打了。
  • 我给人打了。
  • 他叫人给糊弄了。
  • 一世英豪竟为奸人所害。
  • 受制于人。
  • 矿泉水遭他喝完了。
  • 你让他骗了。
  • 鱼将被小猫吃掉。
  • 他被无耻的叛徒出卖。
  • 囚犯被关押在一个秘密的地方。

把字句和被字句的转换

把字句和被字句可以相互转换,即按照“宾+‘被’主+谓”和“主+‘把’+宾+谓”的顺序进行互换,在这种情况下,被字句中通常不能有省略掉的成分(在一些文学作品中,根据上下文的连接也可在把字句中省略主语,但和被字句强调的成分不同)。

例:

  • 他把我打了?我被他打了。
  • 小鱼将被小猫吃掉?小猫将把小鱼吃掉。
  • “小猫做了什么?”“把小鱼吃了!”?“小猫做了什么?”“小鱼被吃了!”(前一句的语境强调施动者的动作,后一句强调受动者的感受)

时貌

汉语中动词没有时态的变化,而时态也不如英语中那么分明和强烈,通常是通过时间状语和一些“时态词”(如原来、曾经、了、掉、完成、将、正在、已经、开始、结束等)来表示动作的时间性,称之为时貌(aspect)。

而表示完成的“了”,通常会跟着一个动词,来表示动作的完整性。有时也常会拿来作为过去标记,即使它仍可以作为末来标记。

例句:

  • 我当了兵。
可能表示说话者目前仍是在“当兵”的这个状态。
但若在前面加上“那时”,改成“那时我当了兵”,情况就不一定了,可能仅指当时那段时间,或是现在依然是。
  • 我当兵了。
强调目前正当兵的这个状态。与上述语句相比,上述语句用于描述一个事件。
  • 他看了三场球赛。
句中的“他”可能在一生中看过了许多场球赛,但此说话者描述的是在特定时间(如昨日、上星期)中,他看了三场球赛。
  • 他看三场球赛了。
与上述语句相比,此句聚焦于三这个数字。表示已经看了三场球赛,暗示未来可能看更多场。

而“过”字则表现了经验的描述:

  • 我当过兵。
表示说话者有“当兵”的经验。
  • 他看过三场球赛。
表示“他”可能只有“看三场球赛”的经验,或是说话者想强调“那三场球赛”。

“正在”与“著”字则表现了现在的描述:

  • 我(正)在挂画。
描述挂画的动作在进行中(动态)。
  • 墙上挂着一幅画。
描述画已被挂上的事实(静态)。

句群

句群是大于句子的语言片断,它是由一组有明晰的中心意思、前后衔接连贯的句子组成的,同时它又是文章段落的组成材料。

句群不同于复句,从书面形式看,复句祇有一个句末标点,而句群不止一个句末标点;复句内部的分句结构比较严密,常使用成群的或单个的关联词语,而句群中的句子和句子之间在结构上比较松散,不需要特别使用关联词语来表示句子与句子的语义关系;此外,句群还用词汇手段关联句子,也即用相同或相似的词语来关联,这也是与复句不同的。

句群和文章的自然段落也不同。一般而言,自然段落是比句群大的语言片段,自然段落通常包含了一个以上的句群。有的时候,段落与句群是重合的,一个句群就是一个自然段落,少数的时候,自然段落比句群还要小,句群里的句子被分为了几个自然段落。

句群的分类在语法学上最有意义的是对句群结构类型的分类,这种分类是根据句群内部句子之间组合关系的类型。句群的结构类型常见的有十种:

  1. 并列关系:特点是句群内部的句子是平等并列的关系,各个句子对一件事物的不同方面进行描述,或从不同角度叙述几件有密切关系的事物;
  2. 顺承关系:各个句子按时间或事件的发展先后顺序排列,前后句子是承接的关系;
  3. 递进关系:后面的句子在意思上比前面的句子更进一层;
  4. 总分关系:句子之间一般是先总说,后分说;
  5. 选择关系:各个句子都是说明情况,让人从中选择一种;
  6. 转折关系:前后的句子在意思上有转折;
  7. 因果关系:前后句子有原因和结果的关系;
  8. 假设关系:也就是前后的句子是假设和结果的关系;
  9. 条件关系:前面的句子提出条件,后面的句子说出结果;
  10. 目的关系:前面的句子提到某种行为,后面的句子说到行为的目的。

如果句群内部的句子之间祇有一种结构关系,即一个结构层次,就是简单句群;如果句群内部的句子结构关系不止一种,其结构层次不止一层,就是多重句群。

句群的切分,是指一个自然段包含有几个句群时,如何划分句群的问题。划分句群,主要是要根据句子之间的语义关系,分出自然段里有几个相对独立的语义中心,围绕着这些语义中心组合起来的句子,就是一个句群。要注意的是,组成自然段的不但有句群,也会有句子,切分时要把句群和句子分清楚。

时间: 2024-10-13 13:19:24

汉语语法的相关文章

行测(基础篇)之汉语语法与阅读习惯梳理

一.词性和语法结构 1.词性 实词(具有实际意义的词):名词.动词.形容词.数词.量词.代词. 虚词(没有具体意义的词):副词(很.非常).连词.介词(在.于).助词(的).叹词.拟声词. 2.语法结构 主语(状语)谓语 (补语) (定语) 宾语    傅园慧使出洪荒之力.(主谓宾)    "傅园慧(真的)使出(了)(自己的)洪荒之力" 主语:名词.代词 谓语:动词.形容词 宾语:名词.代词 定语:形容词.名词.代词.数量词 状语:副词.形容词 补语:形容词.动词 3.例题 二.易混淆

词性标记集--计算所汉语

计算所汉语词性标记集 Version 3.0 制订人:刘群 张华平 张浩 计算所汉语词性标记集 1 0. 说明 1 1. 名词 (1个一类,7个二类,5个三类) 2 2. 时间词(1个一类,1个二类) 2 3. 处所词(1个一类) 3 4. 方位词(1个一类) 3 5. 动词(1个一类,9个二类) 3 6. 形容词(1个一类,4个二类) 3 7. 区别词(1个一类,2个二类) 3 8. 状态词(1个一类) 3 9. 代词(1个一类,4个二类,6个三类) 3 10. 数词(1个一类,1个二类) 4

【入门须知】学DIV CSS技术如何入门?

引言: 引用一本书中的一段文字:"当我第一次开始学习汉语时,我的家庭老师老王给了我一本汉英字典.一本汉语语法书和一本初级教程.但是,他将这些书放 在一个书筐里,并说到下周才能派上用场.在第一周,他只教我听和记一些短语.在开始严格有序的学习前,他要我学会如何复述一些短评."请问,哪里有餐 馆?"."请给我来点米饭"."这件衣服多少钱?".在那个星期,我不得不无条件地接受知识.句子结构.发音和语法.然而,到了星期五我居然可以去一家中 餐馆要

hihoCoder 1385 : A Simple Job(简单工作)

hihoCoder #1385 : A Simple Job(简单工作) 时间限制:1000ms 单点时限:1000ms 内存限制:256MB Description - 题目描述 Institute of Computational Linguistics (ICL), Peking University is an interdisciplinary institute of science and liberal arts, it focuses primarily on the fund

结巴分词中的词性对照

计算所汉语词性标记集Version 3.0制订人:刘群 张华平 张浩计算所汉语词性标记集... 10. 说明... 11. 名词 (1个一类,7个二类,5个三类) 22. 时间词(1个一类,1个二类) 23. 处所词(1个一类) 34. 方位词(1个一类) 35. 动词(1个一类,9个二类) 36. 形容词(1个一类,4个二类) 37. 区别词(1个一类,2个二类) 38. 状态词(1个一类) 39. 代词(1个一类,4个二类,6个三类) 310. 数词(1个一类,1个二类) 411. 量词(1

一个典型的语音识别系统

一.语音识别技术 语音识别技术,广泛来说是指语意识别和声纹识别:从狭义上来说指语音语义的理解识别,也称为自动语音识别(ASR).其关键技术包括选择识别单元.语音端点检测.特征参数提取.声学模型及语音模型的建立.语音识别技术目前在桌面系统.智能手机.导航设备等嵌入式领域均有一定程度的应用.其主要技术难题是识别系统的适应性较差.受背景噪声影响较大,未来的发展方向应是无限词汇量连续语音非特定人语音识别系统. (1)信号处理及特征提取模块 该模块的主要任务是从输入信号中提取特征,供声学模型处理.同时,它

漫话中文分词

出处:http://www.matrix67.com/blog/archives/4212 漫话中文自动分词和语义识别(上):中文分词算法 记得第一次了解中文分词算法是在 Google 黑板报 上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法.最近在詹卫东老师的<中文信息处理导论>课上再次学到中文分词算法,才知道这并不是中文分词算法研究的全部,前前后后还有很多故事可讲.在没有建立统计语言模型时,人们还在语言学的角度对自动分词进行研究,期间诞生

英语中的谓语

英语中的谓语 http://baike.baidu.com/link?url=hRs3fnNWu2nooKZUtwIsULAHCzII3LEXONCS2fbnjnPl738DFwnTO2r-agiRLL1w1EzV29F4z48oXR2UjpyUPq 谓语是对主语动作或状态的陈述或说明,指出“做什么”do what,“是什么”what is this或是“怎么样”how. 谓语动词的位置一般在主语之后,经常用动词和形容词搭配然后用来充当谓语动词. 中文名 谓语 外文名 Predicate 作  

学习笔记 第十五章 JavaScript基础

第15章   JavaScript基础 [学习重点] 了解JavaScript基础知识 熟悉常量和变量 能够使用表达式和运算符 正确使用语句 能够掌握数据类型和转换的基本方法 正确使用函数.对象.数组等核心知识和技法 能够编写简单的脚本,解决网页中常见特效和互动效果 15.1  JavaScript入门 JavaScript是一种轻量级.解释型的Web开发语言.现代浏览器都已嵌入了JavaScript引擎./sc 15.1.1 在网页中插入JavaScript代码 使用<script>标签,可