搜索阅读笔记

# 文档评分

## 索引的类型(参数化索引和域zone索引)

对于每个文档来说,除了一个字符串作为正文之外,还有其他的metadata,比如一篇文章就会有 title publish_time author 等等。

其中 publish_time 这种是有取值范围的,我们称之为参数化索引。而对于title和author这种可以是任意的自有文本,因此我们也可以对它建立倒排。

在这里建立倒排有两种数据结构,目的都是把 term 和 zone 都标注到倒排上:

1. 把 term 和 zone 合起来作为新的term

“`
wiliam.abstrct -> [11], [122], [1441]
william.title -> [2], [4], [8]
william.author -> [2], [3], [5]
“`

2. 把 zone 和 docID 一起记录

“`
william -> [2.title, 2.author], [3.author], [4.title], …
“`

### 域加权评分

对每个域给定一个权重,然后使用每个域有没有出现相关关键词来求和评分

### 权重的设定

“`
1. 专家设定
2. 由人工标注,然后使用机器学习来评分
“`

About 逸飞

后端工程师

发表评论

电子邮件地址不会被公开。 必填项已用*标注