针对通关行业网络结构化数据和文本数据的采集研究.doc[原创毕业论文]

需要金币：2000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：9610
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：噪声数据采集系统设计.doc

下一篇：直流无刷电机控制器设计.docx

摘要：现如今网络的发展非常迅速，在中国,网络的发展蓬勃向上，截止2018年底中国网民的数量达到了惊人的8.29亿，并且仍然在迅速增长中。大多数网民上网是为了检索信息，从而来满足自己学习工作的需求，并且不仅是个人用户，许多企业也通过网络来检索信息，查询有关相关行业的最新消息，以此来掌握行业的发展动向趋势，为企业的发展提供帮助。然而，网络的信息含量是巨大的，不断地有新的信息汇入这个流量大海，所以如何能够及时有效的从一大堆公开的信息中提取出自己想要的信息已经成为了如今的研究热点。

当前最火热的就是人工智能这个领域，这个领域涉及很广，本文就先以一个海关网站为例子，利用人工智能领域下的网络爬虫技术来对这个网站公开的信息进行数据的采集，对商品的实体、实体关系、税率等等的数据进行采集，发掘数据中的潜在规律价值，帮助用户更好的体验，之后再由此展开对其他领域的拓展。

关键词：人工智能网络爬虫文本抓取数据采集

摘要

Abstract

第一章绪论-1

1.1 研究背景和意义-1

1.2 信息抽取技术的现状-1

1.3 本文的主要工作-2

1.4 本文的组织结构-2

第二章 pycharmIDE软件简介-3

2.1 pycharm软件介绍-3

2.2 pycharm在信息抽取的应用-4

第三章网络爬虫的概述-5

3.1 网络爬虫的背景-5

3.2 网络爬虫的基本流程-6

3.3 网络爬虫的分类-7

第四章以全关通为基础采集数据-8

4.1调用库模拟HTTP请求-8

4.2获取原始html-9

4.3 URL解析-10

4.4反爬虫并且保存数据-12

4.5爬虫运行结果-13

第五章其他领域的拓展-15

5.1 研究目标-15

5.2 设计流程-15

5.3 设计的过程-15

5.4 开发的成果-17

5.5 采集另外数据-18

总结与展望-19

参考文献-20

致谢-21

新建基站施工进度的设计与优化.doc	基于Web的智能安防系统.docx	物流无人配送车智能控制系统设计.doc
基于机器视觉的车牌识别系统.doc	太阳能手机充电器的设计与制作.rar	基于百度地图API的停车场查询系统的设计
高校学科竞赛管理系统设计与实现.doc	板料液压剪切机系统设计.rar	基于Android的快捷服务订购App的设计与实现
环保清洁小车设计_机械工程及自动化.r	智能型安全阀校验台设计.doc	基于Android技术的快递查询软件的设计与实