搜索阅读笔记


Author: yifei / Created: June 22, 2018, 1:18 p.m. / Modified: June 22, 2018, 1:19 p.m. / Edit

文档评分

索引的类型(参数化索引和域zone索引)

对于每个文档来说,除了一个字符串作为正文之外,还有其他的metadata,比如一篇文章就会有 title publish_time author 等等。

其中 publish_time 这种是有取值范围的,我们称之为参数化索引。而对于title和author这种可以是任意的自有文本,因此我们也可以对它建立倒排。

在这里建立倒排有两种数据结构,目的都是把 term 和 zone 都标注到倒排上:

  1. 把 term 和 zone 合起来作为新的term
wiliam.abstrct -> [11], [122], [1441]
william.title -> [2], [4], [8]
william.author -> [2], [3], [5]
  1. 把 zone 和 docID 一起记录
william -> [2.title, 2.author], [3.author], [4.title], ...

域加权评分

对每个域给定一个权重,然后使用每个域有没有出现相关关键词来求和评分

权重的设定

1. 专家设定
2. 由人工标注,然后使用机器学习来评分

有任何问题可以发邮件到 kongyifei (at) gmail.com 讨论