Elasticsearch入门-7.映射和分析

1. 倒排索引

有两个文档Doc_1、Doc_2,文档内容分别是:

  1. Hello world
  2. Hello my friend

ES会把文档内容拆分成(也称为tokens词条),然后创建一个词条列表记录词条出现在哪些文档

Term Doc_1 Doc_2
Hello
world
my
friend

当我们需要搜索时,只需要根据关键词去这张表中进行匹配就可以实现快速查找。

但是这个索引还存在以下问题:

  • 同词问题,Hellohello
  • 同词根问题,foxfoxes
  • 同义词问题,jumpedleap

所以可以采取以下措施:

  • 词条大小写统一
  • 词干提取
  • 同义词索引为相同单词