创新工场提出中文分词和词性标注新模型可提升工业应用效率

DoNews7月13日消息（记者翟继茹）13日，记者从创新工场获悉，其最新提出了中文分词和词性标注模型，可将外部知识（信息）融入分词及词性标注模型，剔除了分词“噪音”误导，提升了分词及词性标注效果。

在NLP中，中文分词和词性标注是中文自然语言处理的两个基本任务，尤其在工业场景对分词有非常直接的诉求，但当前没有比较好的一体化解决方案，而且中文分词普遍存在歧义和未登录词的难题。

创新工场方面解释，中文语言因其特殊性，在分词时面临着两个主要难点。一是歧义问题，由于中文存在大量歧义，一般的分词工具在切分句子时可能会出错。例如，“部分居民生活水平”，其正确的切分应为“部分/居民/生活/水平”，但存在“分居”、“民生”等歧义词。“他从小学电脑技术”，正确的分词是：他/从小/学/电脑技术，但也存在“小学”这种歧义词。

创新互联建站专注于青州网站建设服务及定制，我们拥有丰富的企业做网站经验。热诚为您提供青州营销型网站建设，青州网站制作、青州网页设计、青州网站官网定制、微信小程序定制开发服务，打造青州网络公司原创品牌,更为您提供青州网站排名全网营销落地服务。

二是未登录词问题。未登录词指的是不在词表，或者是模型在训练的过程中没有遇见过的词。例如经济、医疗、科技等科学领域的专业术语或者社交媒体上的新词，或者是人名。这类问题在跨领域分词任务中尤其明显。

因此，在“键-值记忆神经网络的中文分词模型”的模型中，利用n元组（即一个由连续n个字组成的序列，比如“居民”是一个2元组，“生活水平”是一个4元组）提供的每个字的构词能力，通过加（降）权重实现特定语境下的歧义消解。并通过非监督方法构建词表，实现对特定领域的未标注文本的利用，进而提升对未登录词的识别。

在算法实验中，该模型在5个数据集（MSR、PKU、AS、CityU、CTB6）上的表现，均刷新历史成绩。

创新工场大湾区人工智能研究院执行院长宋彦表示，与前人的模型进行比较发现，该模型在所有数据集上的表现均超过了之前的工作，“把中文分词领域广泛使用的标准数据集上的性能全部刷到了新高。”

在基于双通道注意力机制的分词及词性标注模型中，将中文分词和词性标注视作联合任务，可一体化完成。模型分别对自动获取的上下文特征和句法知识加权，预测每个字的分词和词性标签，不同的上下文特征和句法知识在各自所属的注意力通道内进行比较、加权，从而识别特定语境下不同上下文特征和句法知识的贡献，从而降低了“噪音”。

创新工场介绍，在和斯坦福大学的 CoreNLP 工具的相比中，该模型有近10个百分点的提升。

在场景应用上，创新工场主要希望解决工业场景的突破，宋彦表示，“在工业场景使用的时候，跨领域的模型能力是一个非常直接的诉求。”创新工场介绍，“键-值记忆神经网络的中文分词模型”和“基于双通道注意力机制的分词及词性标注模型”两篇文章，已经入选自然语言处理领域（NLP）顶级学术会议 ACL 2020。（完）

文章名称：创新工场提出中文分词和词性标注新模型可提升工业应用效率
文章位置：http://hbruida.cn/article/cjhjgs.html

创新工场提出中文分词和词性标注新模型可提升工业应用效率

其他资讯