基于网络爬虫的搜索引擎设计与实现.docx

资料分类:计算机信息 上传会员:HOV3366 更新时间:2025-04-27
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:10784
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)
摘要:现如今,互联网技术飞速的发展,网络信息飞速增长,若没有对数据进行加工处理的技术,在浩瀚的信息海洋中寻找想要的信息如同大海捞针。搜索引擎此时应运而生。同时,为了能在搜索上更有针对性,保证信息的收录齐全、查准率高。需要一种针对特定领域进行检索的垂直搜索引擎。于是设计实现了简单的论坛搜索引擎,并针对此论坛搜索引擎的构建过程和技术进行分析和记录,其中包括使用广度优先搜索策略爬取网页数据,并存储,使用分词算法分词并构建索引,然后使用BM25模型对搜索结果进行打分,最后向用户展示的全过程。
 
关键词: 爬虫,分词,检索
 
目 录
摘 要
Abstract
1 绪论-1
1.1项目背景-1
1.2系统开发工具与环境-1
2 系统总体设计-1
2.1下载(网络爬虫):-1
2.2 索引(构建索引):-1
2.3搜索(检索模型、推荐系统)-1
2.4系统展示-2
3 数据库设计-2
3.1 数据表结构设计-2
4 系统详细设计和实现-4
4.1网络爬虫-4
4.2 构建倒排索引-5
4.2.1分词-5
4.2.2 构建倒排索引表-13
4.3检索模型、推荐系统-15
4.3.1 单term之间求并集-15
4.3.2 多个term之间求交集-17
4.3.3 BM25模型-19
4.3.4 推荐模块-21
4.4系统测试与展示-22
4.4.1搜索结果-22
4.4.2 文章详情页及推荐-25
6 总结-26
参考文献-29
致谢
相关论文资料:
最新评论
上传会员 HOV3366 对本文的描述:推荐模块的总体思路和设计是先计算两两帖子的相似度,将和这个帖子最类似的5个作为推荐模块的内容。具体来说就是提取出贴子中的tfidf较高的关键词,然后计算他们的余弦相似度。......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: