上次泰州网站优化为大家介绍了什么叫做词频,在那篇文章中(什么是词频?),我们涉及到了一个新的概念:反转文件频率(IDF),那么这个是什么意思呢?今天我们就在这篇文章中为大家做一个介绍。
在了解这个概念之前,我们先了解下什么叫做文件频率,这个指的是一个关键词在一定数量的文件中出现在多少个文件中,也就是有这个关键词的文件占所有文件的比例,这个就被叫做文件频率,而反转文件频率(IDF)就是文件频率的倒数,也就是文件总数除以带有关键词的文件数。
反转文件频率的中文名又被叫做逆向文件频率,被叫做这些名词,都是因为它跟文件频率的方向是相反的。
这个是指的某一个关键词的普遍性的概念,比如某个关键词在所有文件中出现的次数,一万个文件中,这个关键词在1000个文件中出现了,这1000个文件对于这个关键词来说,肯定比其他的9000个文件更加的重要,所以理论上,关键词出现的文件数越少,这些出现关键词的文件对于这个关键词就越重要。这个就是反转文件频率的概念。
可以简单的理解为特定在关键词在某些文件中出现的频率高,而在其他文件中的出现的频率低,这些文件会在这个关键词的检索中会显得更加重要。
但是在实际的应用中,反转文件频率远远不是这么简单的进行理解的。下次我们将会介绍一个组合型的概念词频–反转文件频率(TF-IDF)。