基于网络爬虫技术的新闻管理与推送系统的设计与实现开题报告

 2022-11-03 00:02:42

1. 研究目的与意义

随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载的时代。

新闻阅读也随着互联网的进步改变了从订阅纸质报纸的传统模式到访问互联网成千上万的新闻。

目前,互联网上每天产生大量新闻数据。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 课题关键问题和重难点

关键点:实现对新闻网站的新闻抓取、网站内对新闻的搜索、网站的交互页面,后台管理。

难点:1.如何进行数据加抓取?没有接触过网络爬虫技术,学习和实现过程比较耗时间。

抓取的过程中,如何实现精准抓取?2.如何站内进行新闻的搜索?虽有apache的开源程序Lucene的帮助,但还是需要自己掌握。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状(文献综述)

1996 年,美国国防高级计划署为了能够在脱离人工干预的情况下自动检测出新闻数据流中的主题,由此开始了话题检测与跟踪的研究。

TDT 会议是由美国国家标准技术研究所举办的话题检测与跟踪相关会议,TDT 评测[5]将话题检测与跟踪分为五个任务,报道切分任务是指对整个新闻数据流进行切分得到每个新闻报道,话题跟踪任务是对给定的新闻话题的后续追踪,话题检测任务是指从新闻报道集合中发现未知的话题,首次报道检测任务是数据流中找出第一篇属于新话题的文档,关联检测任务是为了判断一篇报道是否与历史话题相关。

对话题检测与跟踪的研究国内开始地相对晚,很多研究人员在检测模型与更有效率地检测在线数据流上做了工作。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究方案

1.对于此项设计,打算采用java 制作交互界面和后台、python进行网络爬虫数据抓取、 SQL Server数据库、apache的开源程序Lucene进行站内新闻索引。

2.整个系统主要分为,前台浏览,后台管理两个大模块。

后台管理模块可以对新闻进行修改删除和用户权限的赋予。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 工作计划

第一周:查阅大量文献资料,确定论文题目;第二周:根据论文题目进行调研,按照指导教师所下任务书的具体要求,积极做好论文前 期准备工作;第三周:完成开题报告。

通过开题报告,对论文的框架和内容有一个大体的构思,并在指导老师的帮助下,整理相关资料、补学空白知识点,做好撰写论文的前期准备工作;第四-九周:进行课题模块化设计并进行模块代码编写与调试。

第九-十周:在导师的指导下,进一步分析整理资料,完成论文。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。