深圳牛掰SEO团队为您提供:企业提供网站SEO诊断分析、网站优化、SEO外包、关键词排名、网站建设、全网营销等服务!承接全国地区业务!!!

深圳SEO_深圳网站优化_SEO外包【7-25天上首页】-【先优化后付费】

您现在的位置: 深圳SEO > 百度算法大全 >

SEO优化算法之:TF-IDF算法计算网页关键词权重

来源:Www.niubiseo.com.cn 发布时间:2017-10-02 作者:深圳SEO 点击:

你还为网站排名烦恼吗?你还为找不到专业的seo公司烦恼吗?你还为担心找到不靠谱seo公司烦恼吗? 一个好的seo团队,一个好的seo公司,一个好的seoer,专业的数据分析、网站布局、网站设计、网站体验,都是必须过硬的, 实力说明一切,谨记!!!

今天我来和大家分享一下网页的关键词权重算法:TF-IDF算法
TF-IDF算法
我们知道,用户在百度上搜索时,会输入一个搜索词,百度会根据这个搜索词,去匹配相关的网页,我们以“漂亮MM的秘密想法” 为例,来说明这整个过程。
 
首先是分词
 
“漂亮MM的秘密想法” 这个搜索词可以分为: 漂亮MM 、的、秘密想法 。我这里只是举例,至于百度如何分词,它有它自己的一套算法,或是基于它自己的字典词库、或是基于大数据分析得到的词库。总之一句话,用户输入搜索词后,百度会按他的一套算法,把用户输入的搜索词进行分词。
 
同样的方法,百度还会对他收录的网页进行分词处理,分词的逻辑和上诉逻辑是一样的。那么如何计算搜索词和网页的相关性呢?
 
按照正常人的直觉:网页里包含上诉三个词越多的越相关。没错!就是这样,不过如果真的简单粗暴这么去认为的话,我们看至少存在这么两个漏洞:
 
1、网页内容多的要比网页内容少的占便宜啊,哪个讲的内容多的一定比内容少的相关呢?
 
2、即然包含关键词多就越相关,那么好,我网页里就全堆砌关键词(机器他就是单纯的可爱),这样网页就高相关了呀,但他一定是和用户想找的内容相关吗?
 
首先对于第一个问题,怎么解决呢? 词频(Term Frequency)! 简称TF。
 
TF = 网页词出现的次数/网页中总共包含的总字数。TF可称之为关键词频率,也可以称为关键词密度。也就是TF值越大,网页和关键词就越相关。
 
那么页面的相关性 = TF值(漂亮MM) + TF值(的)+TF(秘密想法)
 
大家看看以上的公式,是不是哪里不对呢,关键词“的”的重要性明显没有用呢,另外“漂亮MM”明显比秘密想法重要呢?
 
那么这个问题咋解决呢?权重!一个词预测主题能力越强,权重就越大,反之,权重就越小。
 
那么如何计算关键词的权重呢?
 
如果一个关键词只在很少的网页中出现,通过它就容易锁定搜索目标,它的权重也就应该大。反之如果一个词在大量网页中出现,我们看到它仍 然不很清楚要找什么内容,因此它应该小。
 
我们设总体网页的个数为 D,称出现关键词W的网页个数称之为DW。
 
那么得出一个公式: IDF = log(D/DW);
 
这个IDF,就可以认为是词的权重,大家可以简单的理解成,关键词在越多的网页中出现,它越普通,权重就越小,反之就越大。
 
比如的这个关键词:几科每个网页都出现,那么有
 
IDF值(的) = log(1) = 0 。 也即他的权重值为0.
 
那么页面相关性的最终算法:
 
那么页面的相关性 = TF值(漂亮MM)* IDF值(漂亮MM) + TF值(的)* IDF值(的)+TF(秘密想法)*IDF值(秘密想法)
 
好了IF-TDF的算法就是这些了,希望大家能够看得明白
 
那么我们如何用这个算法呢?
 
一个页面,主题一定要明确,关键词定位一定要精准,内容上要自然的让关键词多出现。
 
另外用户的搜索词千差万别,比如我们定位的关键词是自媒体 ,那么用户的搜索词可能是:每天晚上花3个小时经营自媒体平台值吗?
 
这个搜索词,分词成关键词可能是:每天晚上 3个小时 自媒体 ,你的内容套用公式,相关度除了自媒体这个关键词有贡献,别的词有贡献吗? 所以研究好用户的需求,考虑好你想引流的用户,一切都在细节里面!

其他人还阅读了

1、SEO优化案例

2、SEO收费价格

3、SEO优化教程

深圳SEO_网站推广外包公司_深圳网站优化【先排名 后付款】