Index is a mechanism for locating a given term in a text.
Inverted file contains a list of pointers (e.g. the number of a page) to all occurrences of that term in the text.
相关性指标如何评价
想要达到的效果:
- precision表示的是检索出来的文章中的相关性
- recall表示的是相关的文章被检索出来的程度
一些简单的小练习,辅助对知识点的记忆
In distributed indexing, document-partitioned strategy is to store on each node all the documents that contain the terms in a certain range. (T/F)
因此是错误的,相同的规模大小是Document-partioned index
划分一定范围的是term-partioned index
一个是信息information,一个是data
While accessing a term by hashing in an inverted file index, range searches are expensive. (T/F)
是正确的
在使用哈希方式的倒排索引中,对于确切匹配的查询,哈希映射可以提供非常高效的访问速度。这是因为哈希函数将每个词条映射到一个哈希表中的一个唯一位置,从而快速定位和检索信息。
然而,当进行范围搜索时,情况就完全不同了。范围搜索是指查找所有落在特定范围内的词条,例如查询所有介于'cat'和'dog'之间的词条。由于哈希函数的设计本质上是为了快速查找而不保留任何关于词条原始排序或相对大小的信息,哈希表不能有效地处理这种类型的查询。
具体来说,哈希表中的数据位置是基于词条的哈希值,并不反映词条之间的自然排序。因此,尽管你可以通过哈希快速找到一个具体的词条,但要找出所有位于两个词条之间的词条就需要对整个数据集进行遍历,这显然效率很低,因此范围搜索在这种索引结构中是费时的操作。