基于SSM框架网络爬虫的微博采集管理软件
摘要:
在web3.0的大背景下每个人都是信息的创造者和参与者,这也就导致了信息的爆炸增长和杂乱无章,一方面想要获取相应信息的人找不到相应的信息,另一方面高质量的信息不能被更多的大众人群看到,从而导致了信息的埋没,所以如何避免中间商赚差价成为了一个非常重要的任务,为了解决这个问题,本文开发了基于网络爬虫的微博采集管理软件,这个软件可以让用户爬取自己喜欢的和想要的信息,从而避免了只见树木不见森林的现象,下面本文将详细介绍一下此软件。
本软件采用了B/S的架构,用户通过浏览器登录账号进入系统,如果没有账号,可在线注册,进入系统之后,可使用本系统提供的爬取功能去微博上爬取相应的信息,然后保存到本地的数据库中,这样的话就把网络上的信息转换成用户自己的信息,从而可以对信息进行增删改查等一系列的操作。
同时,本系统还提供了一系列可视化的功能,例如:用饼图展示各个博主出现的比例、用词云展示本周出现的热点关键词、热度统计(榜单出现次数最多+转发最多+评论最多+点赞最多)、支持通过检测一个关键词在不同时刻出现的频率,用折线图反应其热度的变化情况。总之,本系统具有微博的各种基本操作和高级操作,可使想获取信息的人更加高效快速的获取想要的信息,从而达到事半功倍的效果,是一个不可多得的好系统。
关键字:系统设计;推荐算法;SSM;MySQL
Weibo collection and management software based on web crawler
Abstract:
In the context of web3.0, everyone is the creator and participant of information, which also leads to the explosive growth and disorganization of information. On the one hand, people who want to obtain the corresponding information cannot find the corresponding information. On the other hand, high-quality information cannot be seen by more people, which leads to the burial of information. Therefore, how to avoid middlemen from making price differences has become a very important task. In order to solve this problem, I have developed a news gathering management software based on web crawlers. This software allows users to crawl the information they like and want, thus avoiding the phenomenon that only the trees cannot see the forest. I will introduce this software in detail below ...
This software adopts the B/S architecture. Users log in to the account through the browser to enter the system. If they do not have an account, they can register online. After entering the system, they can use the crawling function provided by this system to crawl the corresponding information on Weibo, and then Save it in the local database, so that we can convert the information on the network into our own information, so that we can perform a series of operations such as adding, deleting, modifying and checking the information.
At the same time, the system also provides a series of visual functions, such as: using a pie chart to display the proportion of each blogger's appearance, using a word cloud to display the hot keywords that appeared this week, and heat statistics (the most occurrences on the list + the most retweets + the most comments + the most likes), support by detecting the frequency of a keyword appearing at different times, and use a line chart to reflect the change of its popularity. In short, this system has various basic operations and advanced operations of news, which can make people who want to obtain information more efficiently and quickly obtain the information they want, so as to achieve twice the result with half the effort. It is a rare good system.
Key words: System design; Recommendation algorithm;SSM;MySQL .
目录
第一章 绪论 1
1.1. 研究背景及意义 1
1.2. 国内外研究现状及发展趋势 1
1.3. 论文内容与章节安排 2
1.4. 本章小结 2
第二章 软件开发相关技术 3
2.1. B/S结构介绍 3
2.2. SSM框架集介绍 4
2.3.MySQL数据库介绍 5
2.4.网络爬虫技术介绍 6
2.5.词云技术介绍 7
2.6.本章小结 8
第三章 需求分析与软件总体设计 9
3.1.需求分析 9
3.2.系统总体设计 12
1、系统架构设计 13
2、系统功能设计 14
3、数据库设计 14
3.3.本章小结 16
第四章 系统详细设计与实现 17
4.1.新闻数据爬取 17
1、模块设计 17
2、具体实现 17
4.2.前台主要模块设计与实现 18
1、注册登录 18
2、新闻列表 20
3、热度详情 22
4.3. 后台主要模块设计与实现 23
1、用户管理 23
2、退出登录 25
4.4.本章小结 26
第五章 软件测试 27
5.1系统测试概述 27
5.2系统测试环境的配置 27
5.3功能测试 28
5.4.测试结果与结论 29
1、博文列表模块 29
2、热度详细模块 30
3、爬虫模块 30
4、用户管理模块 31
5.5本章小结 32
第六章 总结与展望 33
6.1.总结 33
6.2.展望 33
致谢 34
参考文献 35
第一章 绪论
1.1.研究背景及意义
新闻的历史几乎和人类的历史一样悠远,可以说自从有了人类以来就有了新闻,进入第一次工业革命之后,人类的印刷技术得到了极大的改善,使印刷速度和效率得到了极大的提高,这个时期报纸开始成为了新闻的主要载体。时至今日,报纸依旧活跃在我们的日常生活中。但是,随着第三次工业革命的发展,人类获取新闻的主要媒介慢慢从报纸、书籍开始向电脑、手机转移。人们也不仅仅局限于信息的接收者,随着抖音、快手、微博等自媒体的出现,每个人都有机会在网络上发表自己的看法、见解,从而形成了百家争鸣的局面,本系统真是出现在这样一个大的时代背景下,帮助人们更好的获取自己的想要的微博,并对新闻进行归纳,总结。
本系统存在的意义不仅仅体现在书面上,更是会对使用者的认知产生极大的影响,使原先看新闻的人通过现象看本质,通过使用本系统的词云统计、热度分析、饼图比例等一系列功能,慢慢的影响人们看待事情的方式,从原来的看个热闹向看门道转变,增加使用者的气质,多一些稳重,少一些浮躁,促进全民阅读、维持社会稳定,使老有所依,幼有所教。
1.2.国内外研究现状及发展趋势
在国外,在当今时代的大背景下,人们更加习惯于通过手机和电脑等数字媒介阅读新闻。目前国外主要的新闻平台有BBC、CNN、TIME、Twitter、Facebook、Ins等。国外新闻媒体发展的四大趋势:新闻阅读平台数量增多,随着互联网技术的不断进步和成熟、使得开发新闻阅读平台的难度越来越小,周期越来越短,成本越来越低,这也就会造成平台数量的增多,人们的可选项越来越多。各个平台的压力越来越来,竞争越来越激烈。新闻内容丰富多彩,以前人们阅读新闻大多数都是以文字为主,很少有图片视频等媒介,但是进入21世记之后新闻的形式开始多样起来,包括但不限于图片、视频、动画、语音等形式,使得人们阅读新闻的情绪达到了前所未有的高度,热情空前高涨,形成良性循环,促进社会发展。新闻篇幅越来越短,更新速度越来越快,不知不觉人们已经进入了快节奏的时代,任何事情都追求高效率和高速度,新闻也不例外。互联网的发展使得地球越来越小,地球正逐渐变成一个地球村,任何事情都可通过互联网散布到全球,全世界的人都可以通过手机、电脑等媒介阅读到新鲜出炉的新闻。新闻阅读越来越个性化,每个人都有着每个人的性格和习惯、以前因为技术不够发达、算法不够智能,每个人只能阅读一样的新闻,但是现在技术的发展使得个性化阅读大放光彩。
国内的新闻发展可以用如火如荼来形容,为什么这么说呢?第一点是因为中国是世界上人口最多、密度最大的国家。人口的巨大基数必然会导致阅读平台激烈的竞争和客户资源的争抢。于是各个平台为了吸引客户就不得不优化自己的产品,形成激烈的竞争促进发展。第二点原因是中国文化上下五千年,历史悠久,文化底蕴丰厚,人们的阅读兴趣和欲望比较强烈。工作之余、闲暇片刻,打开手机,阅读一篇自己喜欢的文章,多是一件美事。
1.3.论文内容与章节安排
第一章绪论。主要介绍任务来源、课题研究的背景和课题的意义,此课题国内外研究的现状和各国发展的趋势,并对本次课题研究做一个整体的概述。
第二章相关技术介绍。主要介绍目前软件开发的流行架构、本次软件使用的SSM框架介绍、MySQL数据库介绍、Java网络爬虫技术介绍。
第三章微博采集系统需求分析与总体设计。系统的需求分析、系统总体设计以及业务流程、数据库总体设计、各模块间耦合设计。
第四章系统详细设计与实现。爬虫模块详细设计、数据库各数据表详细设计、注册模块详细设计、数据展示详细设计、用户信息修改模块详细设计。
第五章基于SSM的微博采集系统测试。静态测试和动态测试,代码错误检查,逻辑覆盖测试、路径覆盖测试、边界值分析测试、错误推断测试。
第六章结与展望。论文综合分析、分析本次课题研究过程、找出本次课题遇到的困难、指出自己能力的不足、规划自己未来的发展和期望。
1.4.本章小结
本章节的第一小节主要介绍了本课题的研究背景和意义,第二小节介绍了国内外新闻发展的现状和趋势让读者对新闻行业有一个大概的了解,阅读之后的内容不会显得云里雾里。第三小节也是最重要的部分,就是此篇论文的整体架构,最后为小结,全章节收尾。
参考文献
[1]武洪萍,孟秀锦,孙灿. MySQL数据库原理及应用微课版. 人民邮电出版社,2019.2(2019.12重印).
[2]史卫亚. Python 3.X网络爬虫从零基础到项目实战. 北京大学出版社, 2020.5.
[3]黑马程序员. Spring Boot企业级开发教程.人民邮电出版社, 2019.9(2121.3重印).
[4]孙宝珍. 仓储管理中加工系统的开发与应用. 现代信息科技, 2020(10)0005-03.
[5]吴大刚,肖荣荣. C/S 结构与B/S 结构的信息系统比较分析 [J]. 情报科学,2003(3):313-315.
[6]牛怀岗,林关成. 基于SSM框架的微博发布管理系统设计与实现]. 现代电子技术,2020(11).
[7]蒋凌志. Java程序设计在线考试系统的开发. 电脑知识与技术, 2019.07.
[8]晋振杰,曹少中,项宏峰,王明道,李新佩. 基于Python的电商书籍数据爬虫研究. 北京印刷学院学报, 2018.03.
[9]丁忠祥,杨彦红,杜彦明. 基于Scrapy框架影视信息爬取的设计与实现. 北京印刷学院学报,2018.09.
[10]王馨乐,汪红. 基于知识增强的情感分析研究. 内蒙古科技与经济2022(第22期).
[11]傅宏智,王静玉. 基于个人兴趣的微博推送网站设计与实现. 信息与电脑(理论版), 2018(第23期),
[12]张欣. 关于"互联网+"教育生态圈的思考.河南教育(基础版),2020(第12期).
[13]熊永平. 基于Spring Boot框架应用开发技术的分析与研究[J]. 电脑知识与技术. 2019,15(36):76-77.
[14]荆伟. 人工智能驱动下的设计产业融合创新探究. 包装工程, CN 50-1094.
[15]黄海燕, 张辉. 网页设计与平面设计[J]. 包装工程, 2004(01):126-127.
[16]俞华锋, 大数据下基于Spark的电商智能推荐云平台的研究. 科技视界, 2018年(第26期).
[17]猎豹全球智库. 社交微博还是个性化推荐?美国微博数字化发展的几大趋势.
[18]谢新洲. 个性化微博推荐发展动力及趋势研究. 微博爱好者, 2020(第6期).
[19]周瑶,杨鑫,邓娜等. 高校创新综合管理平台构建与实现. 电脑知识与技术:学术版,2019年(第35期).
[20]庄富[1,2],张艺帆[1,2],林果园[1,2,3]. 基于Android社区巡检系统APP的研究与实现. 计算机技术与发展.
[21]罗路腾,王贵鑫. 基于Springboot的博客网站的设计与实现[J].科学技术创新,2019(第33期)
[22]周文红,晏素芬,蒋玉芳,邓朝晖.Spring Security安全框架应用[J]. 计算机与现代化;2013(第11期)
[23]邱丹萍. 应用Spring Boot的食堂订餐管理系统设计. 福建电脑
[24]李晓炀. Scrapy在气象综合业务实时监控系统中获取第三方数据的应用. 无线互联科技
[25]石慧,陈培辉. 基于大数据技术的房价数据采集及可视化分析应用 .计算机时代
[26]梁豆豆,刘文萍. 无人机遥感图像数据可视化系统的设计与实现[J]. 计算机科学与应用,2021,11(8)
[27]谢新洲,王强. 个性化微博推荐发展动力及趋势研究. 微博爱好者,2020(6期)