目录
1 简介
CSDN 首发地址:https://blog.csdn.net/JasonXu94/article/details/136023043
背景
我国的网络用户数量在不断的增长,网络上充斥着大量的信息,为人们了解当前的国际形势、国内新闻以及潮流信息等带来了非常丰富的资源。网络的发展速度非常快,信息每天都在不断的更新,给人们带来的资源量也在逐渐的丰富。随着市场上的信息量不断的增加,同质化的信息、无用的信息等也都不断的出现,为人们在网络上查找自己想要的信息内容带来了一些负面影响,
本次就是利用了计算机的编程语言来针对新闻内容让计算机软件来实现自动新闻分类,利用自然语言来对新闻分类进行内容的处理,实现依靠内容对新闻进行有效分类的开发效果。
关键词:机器学习;新闻分类;python语言
主要内容
此次以新闻话题文本分类为主要的研究内容,以python技术来搭建一款机器学习新闻文本分类的系统,通过该系统的搭建来对输入的新闻内容进行系统分类,让整个系统可以具备自主的信息识别能力,对于用户在文本框中输入的新闻信息可以实现很好的话题分类,并且将已经实现分类的话题保存在文本管理模块中,从而让该程序可以实现更多的新闻内容存储,通过对新闻内容分类的存储来提高自身对于新闻内容的分类能力,从而实现更好的分类效果。整个系统通过文本分类、话题分类可以达成对人工智能的初步了解开发,通过利用自然语言来对整个系统的开发,可以很好的推动开发效果,实现更好的机器学习过程。整个系统的开过程能够为当下网络中繁琐的信息量提供有效的信息维护管理作用,能够通过自主分类来提高分类的效果,提升对新闻的分类效率。
2 技术栈
环境要求
Python 3.8 (最好用 3.8)
pycharm (社区版,专业版本都可以)
MySql (建议 5.7, 8.0 也可以)
Navicat (不限制版本)
第3章 系统设计
3.1系统结构设计
本次设计的机器学习新闻文本分类系统,类似于一款纯后台的管理系统,在这款系统中,需要通过登录来进行具体模块的操作使用,整个系统的主要功能设计可以保证有对新闻的内容分类,对分类后的新闻进行管理,可以对个人信息进行有效的维护。整个新闻文本分类的界面中,通过输入文本内容,系统会自动对输入的内容进行校验运算,从而实现系统的自动分类,整个系统的功能模块设计简洁,内容使用上可以达到很好的使用效果。
3.2功能模块设计
对于此次的机器学习新闻文本分类系统的功能模块的设计上,本次的主要功能有以下的一些内容:
- 新闻分类模块
新闻分类模块是此次所开发的系统中最为主要的使用功能,这个功能的使用中,需要通过展示新闻分类的具体类别,通过输入新闻的标题以及输入新闻的具体内容来进行新闻分类。新闻分类的整个模块中有文本框的显示,在文本框中输入完信息内容之后,点击开始分类,系统将会自动对输入内容进行分类。
- 新闻管理
在新闻管理的模块中,能够看到已经完成分类的新闻信息内容,在新闻管理中会以列表的方式来进行新闻信息内容以及分类的结果等内容。
- 用户管理
本次的设计是在登录之后才能够实现系统的功能使用,因此对个人的信息维护功能也进行了相应的内容设计,用户可以进行个人密码的修改以及跟人信息的维护操作。
3.3数据库的设计
此次对于数据库的设计将会分为概念设计以及逻辑设计,在数据库的概念设计中,通过对数据库的内容进行实体概念的梳理,将数据库中的实体概念与属性关系进行内容的梳理。整个系统的概念设计的E-R模型展示如下:
管理员
在数据库的逻辑设计上通过数据库表格的方式来进行相关内容的设计与分析,此次设计的系统具体的数据库表格如下:
第4章 系统实现
4.2系统主要功能得实现
4.2.1登录模块的实现
在登录界面的设计中,用户需要输入权限信息之后才能够完成登录,其界面如下图:
图4.1 机器学习新闻文本分类系统登录页面图
4.2.2新闻分类系统的首页
新闻分类界面的首页展示如下,在分类系统中,有首页、新闻分类、新闻管理、个人信息管理等内容模块,在首页中可以看到当前系统中的一些基本信息内容,包括当前系统中的用户数量、新闻类别数量、新闻数量以及当前的年份等信息,如下图所示:
图4.2新闻分类系统首页界面
4.2.3系统新闻分类界面
在新闻系统分类的界面中可以看到系统所支持的分类内容,包括有娱乐、财经等等内容,用户可以通过输入新闻标题以及新闻的内容来对新闻进行分类操作。如下图所示:
图4.3新闻中心界面
4.2.4新闻管理界面的实现
在新闻管理界面中,已经分类过的新闻信息将以列表的形式展现在该模块中,在新闻管理的主界面中可以看到有主题、有分类的内容、有新闻的分类类别,新闻的创建人等。界面显示如图4.4所示。
图4.4新闻管理界面
4.2.5用户管理界面
在用户管理界面中,可以看到现在系统中已经存在的用户信息,对于存在的用户信息可以进行在线修改,也可以添加新的用户,该功能模块中可以实现用户名的搜索,如下图所示:
图4.5用户管理界面
参考文献
[1]陈宇,王强.聚类算法在Web文本挖掘中的应用研究.中国电子商情.通信市场,2019,2:62-68
[2]李恒训,张华平,秦鹏等.基于主题词的网络热点话题发现.见:中国中文信息学会.第五届全国信息检索学术会议CCIR2009论文集.中国中文信息学会,2019:134-143
[3]GabrielPui,CheongFung,JeffreyXuYu,etal.ParameterFreeBurstyEventsDetectioninTextStreams.PROCEEDINGSOFTHEINTERNATIONALCONFERENCEONVERYLARGEDATABASES,2015,1:181-192
[4]罗亚平,王枞,周延泉.基于关注度的热点话题发现模型.见:中国中文信息学会.第七届中文信息处理国际会议.中国中文信息学会,2017:402-408
[5]吴永辉,王晓龙,丁宇新等.基于主题的自适应、在线网络热点发现方法及新闻推荐系统.电子学报,2018,38(11):2620-2624
[6]董婧灵,李芳,何婷婷等.基于LDA模型的文本聚类研究.中国中文信息学会.中国计算语言学研究前沿进展(2009-2011).中国中文信息学会,2019:455-461
[7]曹立勇,郑诚.基于知网的语义相似度的改进算法.电子技术,2019,5:1-3
推荐阅读
2023年Java毕业设计如何选题?500道创新创意毕业设计题目推荐
Java毕业设计-SpringBoot+Vue毕业设计项目合集