韩服突袭注册表:帮我吧!在高分中搜索我的问题吧!

来源:百度文库 编辑:神马品牌网 时间:2024/04/29 12:20:11
题目为<能听我的故事吗?很痛苦!>

不知道啊
着个问题很深懊啊

最常用的是倒排算法,现今的搜索引擎一般应该都是用的这种算法。
比较麻烦,简单说一下:
以英文为例,索引方式是从26个英文字母出发,作为首字母对单词列表进行映射,就像英语字典的目录那样,由于搜索引擎支持部分索引(比如搜索“mail”可以查到“gmail”),所以对于每个单词又要用后缀树拆解,那么数据库的二级索引就是后缀树得到的所有单词和单词片断。对于文章的维护也有不同方式,比如段式是以文章的一段或几段为一块,链接到二级索引之下,或者以章为单位,也就是链接指向整个文章,其中不再分块。
这是最简单的原理,实际运用中还有很多的具体问题。比如对于单词的筛选,对词组的辨识,对数据库内部链表的搜索算法,文章关键字的提取方法……如果是中文的话,相应的算法和维护就更加繁复。
我说的也只是最单纯的实现而已,如果想要提高效率和改善性能,麻烦更多,甚至涉及数据挖掘领域的前沿课题。
至于数据结构,不需要太复杂,最简单的用B-tree族就可以。

//........偶是文盲~

郁闷

叫我们写作文吗?