基于Python的网络信息爬虫采集与应用开题报告

 2022-07-13 15:41:15

1. 研究目的与意义

互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景。

搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。

但是,这些通用性搜索引擎也存在着一定的局限性。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

网络爬虫应用宽带搜索技术。

对url进行分析,去重。

网络爬虫使用多线程技术,让爬虫具备更强大的抓取能力。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状

对于网络爬虫的研究从上世纪九十年代就开始了,目前爬虫技术已经趋见成熟,网络爬虫是搜索引擎的重要组成部分。

网络上比较著名的开源爬虫包括Nutch,Larbin,Heritrix。

网络爬虫最重要的是网页搜索策略和网页分析策略。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 计划与进度安排

参考网上开源的网络爬虫和网络爬虫相关的书籍,结合当下热点话题,爬取具有时代性的数据,并加以处理和分析。

5. 参考文献

1.Python基础教程 人民邮电出版社 2010.07 2.Python核心编程 人民邮电出版社 2008.07 3.图解HTTP 人民邮电出版社 2014.05 4.自己动手写网络爬虫 清华大学出版社 2010.10 5.HEAD FIRST AJAX 中国电力出版社 2009.07 6.SQL入门经典 人民邮电出版社 2011.11 7.MongoDB权威指南 人民邮电出版社 2014.01 8.精通正则表达式 电子工业出版社 2012.07 9.Flask Web开发 人民邮电出版社 2015.01 10.Internet资源

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版