什么是中文分词?搜索引擎如何中文分词?

avatar 2019年4月14日10:28:14 发表评论 636 阅读

分词就是具有动词及形容词二者特征的词,尤指以-ing或-ed,-d,-t,-en或-n结尾的英语动词性形容词,具有形容词功能,同时又表现各种动词性特点,这是百度对分词的简单介绍,中文分词也就是针对中文汉字的分词,中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个个单独的词。具体的下面江鸟SEO博客来与大家分享一番。

什么是中文分词?搜索引擎如何中文分词?

什么是中文分词?

目前的分词手段主要是依靠字典和统计学的方法。由于索引是按照关键词建索引的,索引分词的效果直接决定了索引词以及检索的效果。因此例如将文档“学历史学好”错分成“学历/史学/好”,索引索引时,只会对“学历”,“史学”,“好”这3个索引词建立它们与该文档的关联关系。这样查询“历史学”这个关键词时,无法检索出这个文档可见分词质量在很大程度上影响了搜索的结果和效果。

搜索引擎如何中文分词?

任何文档都可以看做是一些连续的词的集合。然后中文没有明显的词间分隔,这一点和英文不同。当

然英文也有难点,列如时态和词性的变化等。在中文语法中,词汇是由两个或者多个汉子组成的。并且句子是连续书写的,句子间由标点分隔。这就要求在自动分析中文文本前,首先将整据切割成小的词汇单元,这就是中文分词。

举个例子来说明分词的难度,对于“学历史学好”这个句子,作为人来说,很容易正确切分“学/历史学/好”然而计算机要具有这种智慧还是要有很多工作要做的。否则可能会分成“学历/史学/好”

1. 通过字典实现分词

在中文分词中主要体系了3种难分类型

A. 交集型歧义

“从小学”这个词可能有多种切分方法。

Eg:“从小学电脑”----> 正确切分为“从小/学/电脑”

B. 组合型歧义

“中将”这个词可能有多种切分方法

Eg:“美军中将竞公然说”------->正确切分为“美军/中将/竟公然说”

“新建地铁中将禁止商业摊点”---->正确切分为“新建/地铁/中/将/禁止/商业摊点”

C. 混合型歧义

同时包含上面两种歧义,则为混合型歧义。

对于“人才能”,可以能切分“人才/能”,“人/才能”和“人/才/能”

利用字典分词,将字典做成一个前缀结构的数据结构,这种方法称为“最大正向匹配法”,通常称为“MM法”。

什么是中文分词?搜索引擎如何中文分词?

后缀结构树分词,这种方称为“逆向最大匹配”,也叫”RMM法”。两种方法原理相同,不同的是分词的扫描方向。

什么是中文分词?搜索引擎如何中文分词?

这种分词也可以称为“贪婪算法”,贪婪在于总是认为最大匹配的词汇最优,或者说最大匹配可以使得切方出的词汇最少。而较少的索引词可以降低索引系统的工作量和最终索引文件的大小。

2.通过统计学方法实现分词

虽然字典分词解决了分词的大部分问题,但由于字典收录词数的限制,分词还需要具有新词发现的能力,补充到新发现的普遍被采用的各种词汇到字典中,其中包括演艺明姓名和网络流行语。甚至股票代码和火车车次都有可能成为新词发现的目标。

事实上,发现新出现的词汇过程相当复杂,需要很多基于概率及信息学方面的知识,在本书中不展开深入研究。基本的原理就是探索那些经常一同出现的字。总是相互出现的字很有可能构成一个词。为此需要分析和探索大量网友内容,这种分析与探索过程都是离线完成,最后还要一个人工确认的过程。

中文分词技术还在不断的发展,还没有哪一种分词算法能够解决一切问题。SEO优化做排名也需要考虑分词的问题,分词越多可以获得的搜索就会越多。但是也不能盲目的做。

  • 我的微信
  • 这是我的微信扫一扫
  • weinxin
  • 我的微信公众号
  • 我的微信公众号扫一扫
  • weinxin
avatar

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: