针对通关行业网络结构化数据和文本数据的采集研究.doc

资料分类:设计作品 上传会员:Chaturanga 更新时间:2023-04-23
需要金币2000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:9610
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:现如今网络的发展非常迅速,在中国,网络的发展蓬勃向上,截止2018年底中国网民的数量达到了惊人的8.29亿,并且仍然在迅速增长中。大多数网民上网是为了检索信息,从而来满足自己学习工作的需求,并且不仅是个人用户,许多企业也通过网络来检索信息,查询有关相关行业的最新消息,以此来掌握行业的发展动向趋势,为企业的发展提供帮助。然而,网络的信息含量是巨大的,不断地有新的信息汇入这个流量大海,所以如何能够及时有效的从一大堆公开的信息中提取出自己想要的信息已经成为了如今的研究热点。

当前最火热的就是人工智能这个领域,这个领域涉及很广,本文就先以一个海关网站为例子,利用人工智能领域下的网络爬虫技术来对这个网站公开的信息进行数据的采集,对商品的实体、实体关系、税率等等的数据进行采集,发掘数据中的潜在规律价值,帮助用户更好的体验,之后再由此展开对其他领域的拓展。

关键词:人工智能  网络爬虫  文本抓取  数据采集

 

目录

摘要

Abstract

第一章 绪论-1

1.1 研究背景和意义-1

1.2 信息抽取技术的现状-1

1.3 本文的主要工作-2

1.4 本文的组织结构-2

第二章 pycharmIDE软件简介-3

2.1 pycharm软件介绍-3

2.2 pycharm在信息抽取的应用-4

第三章 网络爬虫的概述-5

3.1 网络爬虫的背景-5

3.2 网络爬虫的基本流程-6

3.3 网络爬虫的分类-7

第四章 以全关通为基础采集数据-8

4.1调用库模拟HTTP请求-8

4.2获取原始html-9

4.3 URL解析-10

4.4反爬虫并且保存数据-12

4.5爬虫运行结果-13

第五章 其他领域的拓展-15

5.1 研究目标-15

5.2 设计流程-15

5.3 设计的过程-15

5.4 开发的成果-17

5.5 采集另外数据-18

总结与展望-19

参考文献-20

致谢-21

相关论文资料:
最新评论
上传会员 Chaturanga 对本文的描述:本文的主要工作是以信息抽取技术为出发点,对一个目标海关网站提取我所需的信息数据,并且从中分析数据信息,研究其中的潜在规律价值,那么我主要是通过网络爬虫技术手段来实......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: