基于网络爬虫的网络小说主题分析系统数据采集开题报告

 2022-08-02 10:08

1. 研究目的与意义

自从网络小说崛起之后当代文学场被一分为二,即体制文学场与网络文学场。尽管网络小说至今未受到理论界的应有重视,但它的存在却使体制文学场日益显示出发展的非生态性。也就是说相对于体制文学场而言,网络小说发展有着自身的文学生态性。就小说主题类型而言,网络小说的文学生态性突出体现在网络小说对传统体制文学创作主题单一倾向的突破上。在大数据时代,如何有效运用互联网数据来提前预知网络小说主题主流趋势,目前,搜索引擎可以说是如今时代网络信息来源最重要的查询方式。搜索引擎的搜索策略是应用特定的计算机程序,在网络上自动搜集数据,并对搜集到的数据进行整理,精准定位查询用户所需的信息。

然而,搜索引擎能购快速的查找到用户所需相关信息,这就要归功于网络爬虫。作为搜索引擎的重要组成部分,网络爬虫有着悠久的历史。虽然基于网络爬虫互联网数据采集在国内外各行各业均已广泛使用,但在网络小说主题分析系统数据采集,目前涉及开发使用的相对少。

2. 研究内容和预期目标

本课题主要研究内容是在资源管理平台上,通过搭建面向互联网特定网站,使用网络爬虫技术抓取网络小说主题的数据采集系统。

第1章:论述课题的研究背景,对研究后产生的现实意义做说明,最后对目前国内国外研究现状进行阐述。在本章的最后概述本课题的研究内容,以及论文的组织结构。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状

网络爬虫作为搜索引擎的重要组成部分,已经发展了二十多年。1990 年加拿大麦吉尔大学的三名学生发明了Archie,可以说是现代网络搜索引擎的先驱;1993年春,麻省理工学院学生马休.格雷开发出世界上第一个爬虫程序,命名为“互联网漫游者”,这个是网络爬虫雏形。而后,一些计算机工程师在Wanderer的基础上做了改进,搜索引擎和网络爬虫技术得以进步和发展。

2003年,学者Abiteboul 等人提出了一种基于在线页面重要指数(OPIC)的抓取战略算法;2013年,Yadav P等人提出了基于本体的内容聚焦爬行的智能爬行的新概念。2017年10月在罗马尼亚召开的第21届系统理论、控制和计算国际会议(ICSTCC)中,Catalin等人针对爬虫不断优化带来了一-系列新的挑战,提出了使用各种入侵检测系统(IDS)方法和工具结合挖掘算法,识别可疑网络爬虫生成的潜在威胁。

在国内,自2003年以来,全国多个研究机构针对信息挖掘每年都召开了很多的小型或大型的研讨会。2007 年,浙江大学的罗兵基于普通网络爬虫抓取内容少于页面呈现的内容的基础上,设计深层网络爬虫,它增加了JavaScript脚本解析,可以解决了Ajax通过异步请求,并返回初始加载内容。2009 年,中国科技大学的曾伟辉通过研究对象切片算法构建了一个程序层次模型,不过它不能全面的实现Ajax动态采集。同年,国防科技大学的袁小节提出了多层网页关联聚焦爬行模型和易扩展向量模型,基于协议驱动与事件驱动的综合聚焦爬虫框架。南京大学的张福炎、潘金贵教授等设计了一个数据采集系统IDGS,该系统主要是对Web上中英文技术资料进行自动搜集。2012年,熊中阳等人提出了一种基于信息自我获取的爬虫搜索策略。2018 年,吴林等人提出一种新的基于PageRank算法,并在主题爬虫算法中引入语义相似聚合的,从而大大提高了主题爬虫的查全率。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 计划与进度安排

首先,对目前各种网络爬虫技术进行深入的研究。了解各种类型爬虫的原理和具体实现过程,分析对比各种类型网络爬虫原理、以及优点,缺点。并结合被Web应用广泛使用的Ajax技术,J2EE 技术和正则表达式等这些关键技术。其次,结合互联网涉税网站的特征,采取URL去重和判断主题相关性,提出了基于网络爬虫互联网涉税信息采集系统的设计方案。针对特定网页特定业务,选择面向主题的爬虫技术,对系统各功能模块进行详细设计,最后测试了系统运行,实现了网络小说主题数据采集的网络爬虫系统。

5. 参考文献

周建群.动态决策模型下的服务推送机制研究[D].南京:南京理工大学,2015-1-1.蔡建超,蔡明.搜索引擎PageRank 算法研究[J].计算机应用与软件,2008,25(9):145-147蒋宗礼,田晓燕,赵旭. -种基于语义分析的主题爬虫算法[J].计算机工程与科学,2012,32(9):145-147

于成龙,于洪波.网络爬虫技术研究[J].东莞理工学院学报,2011,18(3)
刘晶晶.面向微博的网络爬虫研究与实现[D].复旦大学,2012袁小节.基于协议驱动与事件驱动的综合聚焦爬虫研究与实现[D].国防科学技术大学,2009陈千.主题网络爬虫关键技术的研究与应用[D].北京理工大学,2015吴林,王永滨.基于语义相似聚合的主题爬虫算法研究[J].中国传媒大学学报(自然科学版),2018,25(01):28-31.袁捷.校园BBS可定制爬虫的设计与实现[D].华中科技大学,2013孙立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术,2010年15期刘世涛.简析搜索引擎中网络爬虫的搜索策略[J].阜阳师范学院学报,2006,23(3):59-62
Kevin.网络爬虫技术原理[J].计算机与网络,2018,44(10):38-40.郭丽蓉.大数据环境下的网络爬虫设计[J].山西电子技术,2018(02):50-52 94.吕鹏辉.基于网络爬虫的新浪微博数据获取方式研究[].电脑知识与技术,2017,13(33):9-12.巫义锐,黄多辉,周逸徉.基于网络爬虫的水利信息检索系统的设计与实现[J].水利信息化,201 7(04):36-41.蔡光波.面向主题的多线程网络爬虫的设计与实现[D].西北民族大学,2017.谢文彬.基于网络爬虫和文本挖掘的实体关系研究与实现[J].现代计算机(专业版),201 6(13):19-21.郭小丹.几种开源网络爬虫功能比较[J].黑龙江科技信息,2015(25):154.杜长燕,李祥龙.基于WEB的网络爬虫的设计[J].无线互联科技,2015(05):49-50.于娟,刘强.主题网络爬虫研究综述[J].计算机工程与科学,2015,37(02):231-237.董日壮,郭曙超.网络爬虫的设计与实现[J].电脑知识与技术,2014,10(17):3986-3988 4012.罗刚,王振东.自己动手写网络爬虫[M].北京:清华大学出版社,2010年10月.王艳阁.主题微博爬虫的设计与实现[D].中原工学院,2013.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。