亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

Elastic Stack從入門到實踐之倒排索引與分詞

標簽:
PHP Java

ES的优势

图片描述

  • 相比Hadoop,开发周期可以缩短四倍左右
  • 性能好,查询快,实时展示结果,拒绝T+1(隔一天储数据)
  • 扩容方便

图片描述

知识点

图片描述

常见术语

  • 文档 Document(用户存储在es中的数据文档)
  • 索引Index(由具有相同字段的文档列表组成)
  • 节点Node(一个ES的运行实例,是集群的构成单元)
  • 集群Cluster(由一个或多个节点组成,对外提供服务)

    Document

    图片描述
    图片描述

    Document MetaData

    图片描述

    Index

    图片描述

    Rest API

    图片描述

    索引API

    图片描述
    图片描述

    Document API

    图片描述

    $ ./elasticsearch.bat -Ecluster.routing.allocation.disk.threshold_enabled=false -Epath.data=hanxiao
    ./kibana.bat
    然后,我们访问
    http://localhost:9200/
    127.0.0.1:5601
    搜索引擎

    图片描述

    正排索引(后,返回全部内容)

    文档ID到文档内容,单词的关联关系

    倒排索引(先)

    单词到文档Id的关联关系,也就是先分词,通过单词查找ID
    es存储的是一个json格式的文档,其中包含多个字段,每个字段都有自己的倒排索引

  • 单词词典(Term Dictionary)
    • 记录所有文档单词(容量大),记录单词到倒排列表的关联信息
      图片描述
  • 倒排列表 (Posting List)
    图片描述
    图片描述
    图片描述

分词

图片描述

Analyze API

图片描述

预定义的分词器

图片描述

中文分词

图片描述

自定义分词之CharacterFilter

图片描述

自定义分词之Tokenizer

图片描述

點擊查看更多內容
2人點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消