为了更好的促进自然语言处理的发展:包括分词、文本分类、命名实体识别、句法分析、信息抽取、知识库构建、主题词识别、自动摘要、智能问答、语义理解、对话生成、话题推荐、语言模型、机器翻译、语义表示等方面在中文中的快速发展和广泛使用,必须很好的掌握汉语语法知识以及汉语词义网络的构建。本篇主要介绍汉语语法,汉语词义网络的构建在以后补充。
维基百科:从以下几个方面做主要介绍。语序、语素、词、词组或短语、句子、时貌(英语时态)、句群等方面
语序
汉语语序如下:
- 基本语序:主词─动词─受词(SVO),有些补语(如许多“介词”词组和以“地”结尾的副词等)置于动词前,有些置于受词后
- “介词”有些为前置词(如“在”、“从”等),有些为后置词(如“上”、“中”、“下”、“前”等),前置之“介词”很多为所谓的伴动词(Coverb)
- 数词、形容词、指示词和关系子句等置于被修饰词前方
语素
在现代汉语里,语素是最小的语音语义结合体,是最小的语言单位。“一个语言片段,一层一层的切分,分到不能再分的最小的单位,就是语素。”例如,“树胶”这个词可以分成“树”与“胶”两个语素,有“树木所产生的胶汁”之意。
在汉语里,大多数的单字同时也是一个语素,例如:“我、他、家、飞、跟、动、太、是、日、月、过、了、着、啊、呀”等等;不过,有些语素由两个以上的汉字组成,如“蜻蜓”、“葡萄”等,因为当“蜻”与“蜓”、“葡”与“萄”分开时,并不会带来任何含义,或者单字语素的含义和前者没有直接关系,如“葡”(葡萄牙的简称)与“葡萄”(一种水果)。
一些二字单词如“马虎”也是一个语素,因为“马虎”(形容草率)拆成“马”与“虎”时,“马”与“虎”这两个字所带的语素含义和“草率”没有关系。还有许多外来音译词,如:“巧克力、维基、英格兰、葡萄牙”等等也是不能再拆分的语素。
有些语素可以单独成词,如:“我、家、有、个、大”等等,称为单纯词,也可以和其他语素合成一个新的词,如:“我们、家庭、没有、三个、大象”等等,称为合成词。还有许多不能单独成词的语素,即不自由语素和半自由词素。
依音节位数来划分,可分为:
- 单音节语素
- 双音节语素
- 多音节语素
- 非音节语素
依构词能力来划分,可分为:
- 自由语素
- 半自由语素
- 不自由语素
词
汉语词类,有别于其它语言,特别是汉语作为意音文字,更有别于拼音文字。汉语词性也和其他语言有共性,词语可以拥有两种或以上词性,从文法的角度来看,和其他语言之间共有的基本词类有动词、名词、代词、形容词、副词、介词和连接词等。
词的分类
汉语词类没有统一的划分标准,分类方法很多,基本上可按照音节形式、内部结构及语法功能三方面来分类。
- 音节形式:可以分为单音节词、双音节词和多音节词。
- 内部结构:只由一个语素构成的词称为单纯词,由两个或以上语素构成的词称为合成词。
- 语法功能:按语法功能区分的类别称为词类,基本分为实词和虚词两大类:
- 实词:名词、动词、形容词、状态词、区别词、数词、量词、代词
- 虚词:副词、介词、连词、助词、拟声词、叹词。
词的歧义
一个词在没有语境的情况下不能只按字面意义解释,以构词法组成的词,其含义虽和构词语素有一定联系,但也不能逐字理解。
词组/短语
短语可由两个或以上的词所组成,也可以由较小的短语结合成为较大的短语。短语如果不加上语调,就不算是句子。短语按其成分的语义关系,可分为并列短语、同位短语、偏正短语、动宾短语、谓补短语、主谓短语、连动短语、兼语短语、介宾短语等。
短语的语义关系类型 | 语义关系 | 例 |
---|---|---|
并列(联合)短语 | 两个或以上的词语的并列,之间可能以连词连接 | “我和他”、“美丽聪慧”、“高大威猛”、“唱歌跳舞”、“又唱又跳”、“一边走路,一边赏花”、“陆地与海洋” |
同位短语 | 两个或以上的词语、从不同角度指同一事物,亦有互相补充说明之作用 | “我们两个”、“咱们仨”、“宝岛台湾”、“世界最长的建筑物——万里长城”、“马来西亚首都吉隆坡”、“诗仙李白”、“诗圣杜甫”、“东方之珠香港” |
偏正短语 | 前面的词语修饰、描述后面的中心词,中间可能有结构助词“的”、“地”等 | “我(的)妈妈”、“美丽(的)上海”、“美国(的)总统”、“我(的)家”、“高兴(地)说”、“台湾(的)作家龙应台” |
述宾短语 | 前面的动词支配后面的词(宾语) | “看书”、“唱歌”、“洗衣服”、“编写新书”、“做蛋糕”、“听歌”、“穿越森林” |
述补短语 | 后面的词(补语)补充前面的动词,中间可能有结构助词“得”连接 | “吓坏”、“打破”、“打死”、“看得入神”、“笑成一团”、“走得快”、“变得不像样” |
主谓短语 | 在后的成分(谓语)对在前的主语作出陈述 | 你开始哭了、他坚持离去、小明没有带东西;斜体字部分为主谓短语。 |
连动(连谓)短语 | 两个或以上连续、接连而下动作。不同于并列短语,两个动作先后紧接着进行 | “开门出去”、“拿起书包开门出去”、“起立行礼”、“提笔写字”、“拿起来看看” |
兼语短语 | 由动宾短语与主谓短语组合起来的短语。中间的成分既是前者的宾语,也是后者的主语 | “叫他出去”、“抓他出来”、“哄孩子睡觉”、“供一家吃饭”、“教学生读书” |
介宾短语 | 由介词(在前)前置于其他成分而组成,使该成分在句中充当状语 | 我在家里睡觉 |
“的地得”
此处讨论“的”“地”“得”三个词是指汉语中特殊的连接词,并非用作介词和语气助词。
严格的说这三个字并不算词语,而是程度状态连接语素。
“的”字用法
用于连接形容词(或表示状态的短语)和其后被作用的词语,可以是名词、代词、动词(做名词时)、形容词、短语等。“的”字前面的词语用来修饰、限制“的”后面的事物,表示“的”后面的事物怎么样。
而名词和代词后面用“的”表示所有和归属,与上述不同。
例:
- 蓝蓝的天(形容词+的+名词,定语修饰、限定中心语)
- 可爱的你(形容词+的+代名词,定语修饰、限定中心语)
- 漫无目的的搜索(状态短语+的+动名词,此时“搜索”为名词,如:探险队在森林里作出一次漫无目的的搜索。)
- 可供查证的参考来源(状态短语+的+名词性短语)
- 漂亮的蓝(形容词+的+形容词,在这种结构下,“蓝”起名词的作用)
- 我的笔(名词+的+名词)
“地”字用法
状态词或状态短语+地构成状语,其后连接被作用的词语,主要是动词和动词短语。A+地+B的结构,表示动作B以状态A进行着。
“地”在一般使用中有时混淆成“的”,一些人认可“的”代替“地”(因为在汉语中,动作本身可以被看作是一个名词),但仍为其他人视作错。另外,“地”字也经常省略。
例:
- 飞快地跑开了(副词+动词短语,状语修饰中心语)
- 紧张地耕作(副词+动词,状语修饰中心语)
- 漫无目的地搜索(状态短语+地+动词,此时“搜索”为动词,如:探险队在森林里漫无目的地搜索。)
- 高兴地跳起来(副词+动词短语,此时“跳起来”是动词短语,表示动作,如:第二个动作还没完成,他就高兴地跳起来。)
“得”字用法
用于连接动词、副词、形容词、或表示状态的短语(但不能是名词、代词、数词、量词等以及不能表现状态的短语)和其后被作用的词语,主要是形容词和副词以及状态短语。“得”字后面的词语用来补充、修饰、限制“得”前面的动作或状态,说明“得”前面的词语怎么样,多是表示前面词语的程度,可以部分看作是“地”的反转结构。
例:
- 跑得快(动词+副词,补语)
- 扔得很远(动词+形容词,补语)
- 你的背包旧得很好看(形容词+形容词短语,补语)
- 高兴得跳了起来(副词+动词短语,此时“跳了起来”是状态短语,表示动作,用于修饰“高兴”,如:所有动作完成后,他禁不住高兴得跳了起来。)
三者的语境
三者可以简单地认为:
“的”字表示事物的状态,强调的是“的”字前面的词语,定语修饰、限定中心语;
“地”字表示状态的补充,强调的是“地”字前面的词语,状语修饰,限定中心语;
“得”字表示动作的状态,强调的是“得”字后面的词语,补语。
句子
句子分为单句及复句。单句分为主谓句及非主谓句。
主谓句
主谓句是由主谓短语带上一定的语调构成的句子。
根据谓语词性不同,主谓句可分为名词谓语句、动词谓语句、形容词谓语句、主谓谓语句四种类型。其中,主谓谓语句是由主谓短语充当谓语的主谓句。
如果根据主语的存废来划分,主谓句又可分为完全主谓句和不完全主谓句。
完全主谓句
“完全主谓句”就是指句子里有主谓结构并且主谓部分都显现出来,没有被省略的句子。例如:
小强被金钱龟吃了
不完全主谓句
“不完全主谓句”是指句子里有主谓结构,但主语或谓语部分可能在特定的语境里承前或蒙后省略了,没全都显现出来的句子。例如:
毛小慧问道:“谁被金钱龟吃了?”
余乐天凄然叹喟:“小强!”
要注意的是,“不完全主谓句”里,被省略的主语或谓语成分并非不存在,只是在特定语境里,为简炼而省略了,我们是可以按文意酌情补回省略了的主、谓部分而不影响文意的。上例“小强。”便是“不完全主谓句”,我们能按文意补上“~被金钱龟吃了”使之变成“完全主谓句”而意义不变的,但因为承前文毛小慧的问话,不说自明,所以省去谓语部分更好。
非主谓句
“非主谓句”跟“不完全主谓句”外观上相似,不过跟“不完全主谓句”不同,“非主谓句”之所以不呈现主谓结构,并非因为在特定语境承前蒙后而把主语或谓语略省了,而是因为“非主谓句”的确是没有主谓结构的句子,这是“不完全主谓句”和“非主谓句”的根本分别。譬如,有时在特定场合里,我们在没有上文下理的情况下,带语调地喊一句“小强。”(或“小强!”或“小强?”,或惊恐或欢欣,视乎喊“小强”的是余乐天还是毛小慧),也能表达一个完整的意思。这不是主语或谓语的省略,而是根本无需补出主谓结构。我们虽然可以任意为“小强”补上语境或其他句子成分使之成为主谓句,但无论补上什么,原句的语意都一定会被改变。也就是说,改了以后,也是另一句句子。我们根本无法在原句本义不变的情况下补出一个合适的主谓结构来。“不完全主谓句”和“非主谓句”的分别就在此显明了。
复句与分句
复句由分句构成(“分句”也有称为“单句形式”)。有异于短语之于句子,分句在句子里并不互为句子成分,而且,各分句均已具备单句的形式(可以是单句的主谓句形式或非主谓句形式)。
当然,这独立性只是相对短语而言。“单句形式”的独立性还是逊于“单句”的。
我们试以“复句会使用关联词语,单句不使用关联词语”这句为例。这复句的两个分句都具备了单句的形式,它们各自是一个完备的主谓句结构,且分句与分句之间也只是并列关系,并不存在主谓宾定状补等句子成分关系。假使独立出来,观之亦与一句完整的单句无异。假使我们把上例两个单句形式单独运用来表述意思时,它们是就是两句单句,可以各自有完整的语调。
当然,作为复句,合读时自有复句的句调,不可割裂。复句里的分句,也不具备完整的意义,不可独立应用,不足表述一个完整自足、不用补充的概念。
复句的基本类型有:1、并列复句,2、承接复句,3、递进复句,4、选择复句,5、转折复句,6、假设复句,7、因果复句,8、条件复句,9、解说复句,10、目的复句。
把字句与被字句
把字句
该句型是属于宾语前置的一种情况,在现代汉语中,一个完整的句子是比较严格的遵循“主+谓+宾”的顺序结构的。该种句型来自于古汉语,“把”字是将宾语提前的一个特征,成为“主+‘把’+宾+谓”的语序,亦可将“把”看作是谓语,而后的动词看作是谓语补足语。可以认为“把”的语义与英语中的“take to”相同。 等同于“把”字的动词还有“将”“拿”等,但语境更为书面化(特别是“拿”字句)。
例:
- 小明把鼠标拿到手中。
- 病毒把系统破坏了。
- 我手持钢鞭将你打了。
- 请将书翻到53页。
- 他将旗子举起。
- 夕阳将傍晚的天空照得通红。
- 午时三刻拿重犯开刀问斩。
- 我将拿你是问!(此处的“将”代表将来语态)
被字句
被字句在汉语当中用表示被动语态,此时的次序为“宾+‘被’主+谓”,亦可将被字句看作与把字句相似的句型,二者都是将谓语后置(如果将受动者看成是主语的话)。
但与把字句不同的是:被字句可以省略掉主语,亦可省略“被”字(本句话完整的表达为“被字句可以被省略掉主语,亦可被省略掉‘被’字”,但这样不太符合汉语的一般表达)。
汉语中的被字句与英语中的“被动语态”一样。
“被”字也可以用“遭”“叫”“让”“给”字代替(多出现在方言或口语当中,相对少见)以及“为”“受”字代替(多用于书面语和古文)。
例:
- 我被打了。(省略主语)
- 我被他打了。
- 我遭他打了。
- 我给人打了。
- 他叫人给糊弄了。
- 一世英豪竟为奸人所害。
- 受制于人。
- 矿泉水遭他喝完了。
- 你让他骗了。
- 鱼将被小猫吃掉。
- 他被无耻的叛徒出卖。
- 囚犯被关押在一个秘密的地方。
把字句和被字句的转换
把字句和被字句可以相互转换,即按照“宾+‘被’主+谓”和“主+‘把’+宾+谓”的顺序进行互换,在这种情况下,被字句中通常不能有省略掉的成分(在一些文学作品中,根据上下文的连接也可在把字句中省略主语,但和被字句强调的成分不同)。
例:
- 他把我打了?我被他打了。
- 小鱼将被小猫吃掉?小猫将把小鱼吃掉。
- “小猫做了什么?”“把小鱼吃了!”?“小猫做了什么?”“小鱼被吃了!”(前一句的语境强调施动者的动作,后一句强调受动者的感受)
时貌
汉语中动词没有时态的变化,而时态也不如英语中那么分明和强烈,通常是通过时间状语和一些“时态词”(如原来、曾经、了、掉、完成、将、正在、已经、开始、结束等)来表示动作的时间性,称之为时貌(aspect)。
而表示完成的“了”,通常会跟着一个动词,来表示动作的完整性。有时也常会拿来作为过去标记,即使它仍可以作为末来标记。
例句:
- 我当了兵。
- 可能表示说话者目前仍是在“当兵”的这个状态。
- 但若在前面加上“那时”,改成“那时我当了兵”,情况就不一定了,可能仅指当时那段时间,或是现在依然是。
- 我当兵了。
- 强调目前正当兵的这个状态。与上述语句相比,上述语句用于描述一个事件。
- 他看了三场球赛。
- 句中的“他”可能在一生中看过了许多场球赛,但此说话者描述的是在特定时间(如昨日、上星期)中,他看了三场球赛。
- 他看三场球赛了。
- 与上述语句相比,此句聚焦于三这个数字。表示已经看了三场球赛,暗示未来可能看更多场。
而“过”字则表现了经验的描述:
- 我当过兵。
- 表示说话者有“当兵”的经验。
- 他看过三场球赛。
- 表示“他”可能只有“看三场球赛”的经验,或是说话者想强调“那三场球赛”。
“正在”与“著”字则表现了现在的描述:
- 我(正)在挂画。
- 描述挂画的动作在进行中(动态)。
- 墙上挂着一幅画。
- 描述画已被挂上的事实(静态)。
句群
句群是大于句子的语言片断,它是由一组有明晰的中心意思、前后衔接连贯的句子组成的,同时它又是文章段落的组成材料。
句群不同于复句,从书面形式看,复句祇有一个句末标点,而句群不止一个句末标点;复句内部的分句结构比较严密,常使用成群的或单个的关联词语,而句群中的句子和句子之间在结构上比较松散,不需要特别使用关联词语来表示句子与句子的语义关系;此外,句群还用词汇手段关联句子,也即用相同或相似的词语来关联,这也是与复句不同的。
句群和文章的自然段落也不同。一般而言,自然段落是比句群大的语言片段,自然段落通常包含了一个以上的句群。有的时候,段落与句群是重合的,一个句群就是一个自然段落,少数的时候,自然段落比句群还要小,句群里的句子被分为了几个自然段落。
句群的分类在语法学上最有意义的是对句群结构类型的分类,这种分类是根据句群内部句子之间组合关系的类型。句群的结构类型常见的有十种:
- 并列关系:特点是句群内部的句子是平等并列的关系,各个句子对一件事物的不同方面进行描述,或从不同角度叙述几件有密切关系的事物;
- 顺承关系:各个句子按时间或事件的发展先后顺序排列,前后句子是承接的关系;
- 递进关系:后面的句子在意思上比前面的句子更进一层;
- 总分关系:句子之间一般是先总说,后分说;
- 选择关系:各个句子都是说明情况,让人从中选择一种;
- 转折关系:前后的句子在意思上有转折;
- 因果关系:前后句子有原因和结果的关系;
- 假设关系:也就是前后的句子是假设和结果的关系;
- 条件关系:前面的句子提出条件,后面的句子说出结果;
- 目的关系:前面的句子提到某种行为,后面的句子说到行为的目的。
如果句群内部的句子之间祇有一种结构关系,即一个结构层次,就是简单句群;如果句群内部的句子结构关系不止一种,其结构层次不止一层,就是多重句群。
句群的切分,是指一个自然段包含有几个句群时,如何划分句群的问题。划分句群,主要是要根据句子之间的语义关系,分出自然段里有几个相对独立的语义中心,围绕着这些语义中心组合起来的句子,就是一个句群。要注意的是,组成自然段的不但有句群,也会有句子,切分时要把句群和句子分清楚。