中文自然语言处理词性总结

分词和词性标注是自然语言处理领域的重要组成部分,尤其对于中文而言,作为整条自然语言处理pipeline的源头,分词和词性标注更是起到了关键的作用。我整理这篇文章,主要来源于这几个问题:
一、理解中文词性是否有意义?
问题:前几天跟几个刚认识的朋友谈自然语言处理的相关问题时,遇到一问题让我觉得很有意思,这位朋友说,中文没有词性可言,因为中文的词性兼类太过于严重,动副兼类,名动兼类等等,理解中文词性没有任何意义。当然,这位朋友知识从一个汉语本身的特点来说出的这个结论,但说理解中文词性没有任何意义,这个不太赞同。中文的词性与中文的语言构成和语言使用具有严格上的对应关系,而且词性作为概念的抽象,对于语言的泛化具有重要意义。

二、搞自然语言处理的是否要懂词性标记体系?
作为课题组的自然语言处理面试官,我出了一道开放性的问题,很简单,面试题为:介绍一下开源中文自然语言处理工具包的常见词性、依存关系标记及其对应的含义。但至今为止,没有人答上来过,这让我感到有点失望。做自然语言处理,在深度学习大行其道之时,都不注意语言本身的基础知识,这很有可能会导致“不懂你研究的对象还偏要去研究它”的悖论。理解中文的词性和语义依存关系是自然语言处理的一项基本功,大家一定要引起注意。

因此,本文将总结中文词性和依存关系,结合其具体含义以及相关的开源标记展开论述。

一、中文的词性
词是语义完整的最小语言单位,中文的词语包括有实词和虚词两个大类,实词指能够独立充当语法成分并且有实际意义的词,包括名词、动词、形容词、数词、量词、代词共6个小类。虚词指的是不能独立充当语法成分的词,主要有副词、介词、连词、助词、语气词、拟声词、感叹词6类,两者相加,一共组成12类词性。下图主要列举了中文实词和虚词的分类、意义、对应的NLP任务以及完成的任务几个信息。

图1-实词分类及信息
在这里插入图片描述

图2-虚词分类及信息
在这里插入图片描述

二、开源工具中的词性标注体系

在这里插入图片描述

在这里插入图片描述


更多精彩内容