通过建立一个停用词列表来实现。这样,网页推广通过去除这些无意义的词之后,剩下的就是有意义的,值得分析的词汇了。(http://www.yixiin.com/sell/)
网页净化主要是去掉网页中大量无用的广告、导航栏等网页模板噪声以及无意义的内容,如Javascript脚本,CSS标记等内容。至于百度引擎采用的是何种算法,则不为我们所知,但是个人估计应该是对网页进行划分为不同的快,通过衡量网页块的重要程度来判断出包含主题内容的块,然后提取出该块的内容,至于百度引擎如何判别网页快的重要程度,网页推广那是另外一个课题。
第二:百度引擎首先对要要分析的网页进行净化处理
第四:针对提取出的内容进行分词处理
百度引擎应该是从以下几步来如何分析关键词和文章性的:
第一:对初步分词的结果进行去除无意义的词语
在完成对文章分词切分和净化工作之后,就要将网页推广文章所有关键词进行分析了,笔者的想法是百度引擎将文本表示成Ⅳ维特征向量,每一维分量由关键词及其权重组成。一般认为,关键词在文中的权重的确定,主要由三部分组成,词频,位置和词义共同影响决定。而词频和位置对词语或短语的影响可以通过确定的算法加以确定,词义权重也有固定的算法进行分析计算。百度引擎利用设定好的算法对上述关键词进行了计算和分析。
第三:对关键词的权重进行确定分析
权重是每搜索引擎对一个网站的评价,所以权重是搜素引擎关注的和评价一个网站的一个标准,所以关注权重是有所必要的,也得把权重提高才能获取更好的排名!http://www.yixiin.com/sell/