| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:10784 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:现如今,互联网技术飞速的发展,网络信息飞速增长,若没有对数据进行加工处理的技术,在浩瀚的信息海洋中寻找想要的信息如同大海捞针。搜索引擎此时应运而生。同时,为了能在搜索上更有针对性,保证信息的收录齐全、查准率高。需要一种针对特定领域进行检索的垂直搜索引擎。于是设计实现了简单的论坛搜索引擎,并针对此论坛搜索引擎的构建过程和技术进行分析和记录,其中包括使用广度优先搜索策略爬取网页数据,并存储,使用分词算法分词并构建索引,然后使用BM25模型对搜索结果进行打分,最后向用户展示的全过程。
关键词: 爬虫,分词,检索
目 录
摘 要
Abstract
1 绪论-1
1.1项目背景-1
1.2系统开发工具与环境-1
2 系统总体设计-1
2.1下载(网络爬虫):-1
2.2 索引(构建索引):-1
2.3搜索(检索模型、推荐系统)-1
2.4系统展示-2
3 数据库设计-2
3.1 数据表结构设计-2
4 系统详细设计和实现-4
4.1网络爬虫-4
4.2 构建倒排索引-5
4.2.1分词-5
4.2.2 构建倒排索引表-13
4.3检索模型、推荐系统-15
4.3.1 单term之间求并集-15
4.3.2 多个term之间求交集-17
4.3.3 BM25模型-19
4.3.4 推荐模块-21
4.4系统测试与展示-22
4.4.1搜索结果-22
4.4.2 文章详情页及推荐-25
6 总结-26
参考文献-29
致谢 |

