Forever

Do one thing at a time, and do well.

什么是TF-IDF?IDF对于部署网站关键词有什么意义?

我们在网上去覆盖搜索需求的时候,肯定会碰到意思看着区别不大的一些词,他们看着比较像,我们是不是能把一些比较像的词放在同一个页面上。

这如何判断,有一个可参考的东西就是TF-IDF

1.什么是TF-IDF

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency).

TF-IDF是一种统计方法用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用.

上面百度百科的内容解释比较难懂,其实它主要用于判断一个词里面,哪一个词相是更重要的。

就比如北京租房信息,整个搜索词这里面,有词相就包含北京、租房和信息三个词相。

但在这里每个词的重要性是不同的,一般来说重要性方面,租房大于北京,信息限定在了租房这件事情上,北京限定了地区,核心需求是租房。

不能理解也没有关系,后面我们举例来讲一下大家就清楚了。

这种例子互联网上出现的特别多,每一个页面之后都会有他们的身影和运用。

2.IDF对于部署网站关键词有什么意义?

比如说看到北京租房子和北京租房信息,我们可以放在一个页面上做,因为它们差别的地方是信息,都是要在北京找房子,区别很小,只是对于用户而言搜索用词不同。

没有对搜索结果做出什么额外的限定,搜出来的结果信息大同小异,不影响最终的结果。

但是如果我们做北京租房和中关村租房这两个词,显然是不同的需求。

北京租房的需求对于某一个区可能不在乎,都可以,而中关村租房其实更加限定了必须在中关村附近的信息。

那么这两个词显得比较重要,那么他们需要放在不同的页面上做,因为一个月面的权重是有限的,一个页面不可能把所有的词都给做出来,排名较好。

如果那样的话,我们找一个pr权重比较高的页面,把全部词都在一个页面体现出来就完毕了。

这不现实,另外一个页面的权重是有限的,有一个词就会分掉一部分权重,再多一个词又分掉一部分。

那么一个页面同时把北京租房和中关村租房做上去有么有可能,这个理论上当然是可能的,就比如说,我们本来可以用两个pr2的页面,一个做北京租房的,一个做中关村租房的,把排名做上去,但是我们如果想把他们同时做上去,我们就可能要找一个pr6的页面来做。

性价比不高,其实通常也不建议这么做。

总结:DF值差别小的词,我们就可以放在同一个页面上,差距比较大的,我们就分开页面。

通过这样一个原则部署关键词,可以让我们这个整体的一个效果更好。

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注