企业负面信息采集和分级系统设计与实现《网站规划与设计》期末论文

《网站规划与设计》期末论文

校外学习中心:湖南交通工程学院 学号:20161202011009x姓名 :xxx  成绩

 

 

 

企业负面信息采集和分级系统设计与实现

 

摘 要

舆情监控对于企业来说是一个永恒的命题。伴随着传统互联网的高度发展以及移动互联网的兴起,传统纸媒已经不再是主流媒体。新型的互联网媒体成为舆论的主流。在纸媒时代,舆情传播速度慢,传播源头少,负面信息对企业造成的损害往往有限。而面对如今众多的互联网媒体,负面信息可以从任何时间产生,然后在一天甚至数小时内大范围传播,造成的损失难以估量。由此可见,企业舆情监控无疑遭到了全新的挑战。如果可以快速高效准确的把握负面的网络舆情,对于企业的生存和发展将是重大利好。为了解决这一问题,本毕业设计实现了一个企业负面信息采集与分级系统。系统的核心功能是网络爬虫和文本情感倾向分析。用户可以通过用浏览器访问服务器地址来使用此系统。系统采用B/S架构,用PHP语言编写。在web系统构建方面,前端使用Bootstrap框架构建,后端使用Laravel构建。分词和情感倾向分析则使用了百度提供的api。在项目管理上,本毕业设计通过GIT进行版本控制,通过快速原型和多次迭代推动项目流程,所编写的文档覆盖项目的整个生命周期。

关键词:Laravel;爬虫;情感倾向分析;web系统;软件工程;

 

目  录

摘 要 I

Abstract II

目  录 III

1  引言 1

1.1  背景 1

1.2  现状 1

1.3  目的 2

1.4  范围 2

1.5  主要内容 2

2  技术路线 3

2.1  网络爬虫 3

2.2  Laravel框架 3

2.3  DomCrawler组件 3

2.4  文本向量 4

2.5  TF/IDF权值 4

3  需求分析 5

3.1  功能性需求 5

3.1.1  用例模型 5

3.1.2  功能模型 7

3.1.3  数据模型 11

3.2  非功能性需求 13

3.2.1  易用性 13

3.2.2  通用性 14

3.2.3  可维护性 14

3.2.4  性能 14

3.2.5  时效 14

4  详细设计 15

4.1  系统业务流程 15

4.2  系统结构设计 18

4.3.1  系统结构图 18

4.3.2  数据访问 19

4.3.3  身份认证 19

4.3.4  负面信息展示 20

4.3.5  负面信息管理 20

4.3.6  负词库管理 21

4.3.7  爬虫管理 21

5  系统实现 23

5.1  搭建脚手架 23

5.2  路由规划 24

5.3  模型的创建与实现 25

5.4  控制器的创建与实现 25

5.4.1  NegativeInfoController的设计 25

5.4.2  NegativeWordController的设计 27

5.4.3  SpiderController的设计 28

5.4.4  HomeController的设计 32

5.5  视图的实现 33

5.5.1  HomeController下的视图 33

5.5.2  NegativeInfoController下的视图 36

5.5.3  NegativeWordController下的视图 39

5.5.4  SpiderController下的视图 39

6  系统测试 42

6.1  黑盒测试 42

6.2  缺陷统计 42

6.3  测试结论和建议 43

参考文献 45

 

1  引言

1.1  背景

在互联网时代,信息的传播快速而广泛。许多机构和个人可以轻易的发布、传播信息。而负面信息在网络的泛滥给企业带来的伤害对比起传统媒体来说有过之而无不及。企业负面信息主要会有以下三个方面的负面影响:

1.危害企业形象;

2.引发客户的不信任甚至恐慌;

3.影响企业内部稳定。

在这样的背景下,企业负面信息采集和分级系统具有重要意义。它可以帮助企业对网络负面信息进行防范、预测、控制和处理,可以帮助企业决定采取何种策略和措施,把握网络负面信息的转化机会,尽可能的减少网络负面信息影响损失,以保证企业安全运行,维护企业持续经营。

1.2  现状

市面上现在已经存在一些对企业负面信息进行采集和监控的方法。现行的方法主要如下:

1.通过人工进行周期性的线上搜索,对负面信息进行收集和阶段性处理;

2.通过爬虫对特定网站进行信息收集,之后通过人工审核判断信息内容;

3.使用商业舆情监控系统,进行自动化信息收集和信息分级。

对于上述方法1,所使用的人力成本高昂,信息收集和处理效率低下,信息时效滞后,但准确度最高。对于上述方法2,人力成本得到了有效的控制,信息收集效率也得到了提高,信息处理准确度有一定保障,但存在处理效率较低和信息时效滞后的问题。对于上述方法3,人力成本几乎可以忽略不计,信息收集和处理效率高,时效性强,可以做到接近实时监控,但信息准确度依赖于信息处理模型的好坏。

1.3  目的

本设计的主要目的是实现一个自动化的负面信息采集和分级系统,系统能针对给定的目标企业,从互联网抓取(基于搜索引擎方式)其负面信息,然后根据负面信息严重程度进行简单分级。

系统采用B/S架构,为用户提供真正平台无关的高可用服务。对于收集到的数据,系统在服务器进行持久化,提高用户查询速度,方便用户查看历史信息。系统提供的负面信息分级功能,帮助用户快速过滤无效或低权值信息。系统还提供了一系列的管理功能,让用户对信息的处理能力不仅仅停留在查看上,最终帮助用户进行舆情监控,舆情分析和舆情处理。

1.4  范围

以下为本说明书的预期读者:

项目管理人员、项目产品经理、软件开发工程师、软件测试工程师、系统运维工程师、系统使用者。

1.5  主要内容

本系统主要包括浏览器端和服务器端两个部分。浏览器端是用户使用的部分,是信息展示的载体,同时负责为用户提供各种功能的入口。服务器端负责处理用户请求,处理文本数据,与数据库进行交互以及为浏览器端提供数据。

系统按功能划分可以分为五个子系统:

  1. 负面信息展示系统;
  2. 用户认证系统;
  3. 爬虫系统;
  4. 负面信息管理系统;
  5. 负词库管理系统;

本说明书将以此为基础,对系统进行分析和设计。

 

2  技术路线

此项目基于B/S架构,采用了经典的MVC模式。项目中除了使用了常规的PHP、MySQL、Apache等技术,还使用到了网络爬虫、Laravel框架、DomCrawler组件以及NLP等流行的技术。

2.1  网络爬虫

网络爬虫是一种自动化的程序,它最基本的功能是按照一定规则,对网络上的信息进行捕获。爬虫技术的出现,主要是伴随着互联网的迅猛发展。大量的信息产生在万维网上,如何有效捕获信息成为了一个需要解决的问题。而网络爬虫技术随着通用搜索引擎的出现和发展,逐渐形成体系成为一种新技术。之后,网络爬虫在不同的垂直领域,面对不同的业务环境,发展成不同的方向,比如,提高信息获取速率的高并发多代理爬虫,针对反爬虫策略的反反爬虫爬虫,通过特定样本训练的人工智能爬虫等等。爬虫技术的本质是数据获取,经常同数据处理技术结合起来面对业务需求。

2.2  Laravel框架

Laravel框架是目前最流行的PHP框架。Laravel的设计基于MVC构建,简洁优雅而富有表现力。MVC是一种分层设计的思想,目的在于分离业务逻辑、数据和展示。这样可以在改进其中一层的时候,不需要对其他部分进行修改,同时也可以实现只更新数据就改变展示效果。本项目使用的Laravel5.5版本,支持Composer包管理,日志遵循PHP-FIG,提供了项目的低耦合,高可维护,统一异常处理等特性。

2.3  DomCrawler组件

DomCrawler是Symfony开发的HTML和XML文档操作组件。组件支持通过Composer自动加载。DomCrawler组件简化了文档的DOM导航。它读取一个HTML/XML文本,并建立文档树。DomCrawler在内部实现了一个XPath解析器,所以它支持通过XPath访问文档树的节点,高效准确而优雅。DomCrawler支持直接通过请求获取页面并转化为DomCrawler对象,方便开发者快速开始自己的爬虫应用。

2.4  文本向量

文本向量是一种文本表示模型,这种模型是为了让计算机可以更好的识别文本。对于原始文本,许多文本挖掘或者文本分类算法无法直接处理,所以要对文本进行相应的处理,其中一种方法就是把文本向量化。基于词典的文本向量化,首先需要确定一个向量空间。把词典中的每个词作为向量空间的一个维度,则对于基于N个词的文本,可以表示为N维向量空间中的一个向量。

2.5  TF/IDF权值

对于文本向量,每一个维度需要有对应的值来表示。TF/IDF就是一种文本向量权值的计算思想。TF表示词文本频率,它表示对于一段文本,某个词的权重应该伴随它出现在文本中的频率上升而上升,即词权重与词文本频率正相关。IDF表示词文件频率,它描述了词频的另一种特性,即词汇在全部样本文件中出现的频率越高,它在单个文件中的权重应该越低,故IDF也叫反词频。TF/IDF体现的思想是:如果一个词在文件中反复出现,那么它应该是被强调的,应该被更加重视;但是这个词如果在整个主题中都有很高的频率,那么说明这个词汇是普遍的,对于单独的文本可能并没有特殊意义。总之,TF/IDF为文本向量化提供了一种考虑相关性的计算思想。

更多
  • 该日志由 于2020年06月03日发表在 未分类 分类下, 你可以发表评论,并在保留原文地址 及作者的情况下引用到你的网站或博客。
  • 本文链接: 企业负面信息采集和分级系统设计与实现《网站规划与设计》期末论文 | 帮助信息-动天数据
  • 版权所有: 帮助信息-动天数据-转载请标明出处
  • 【上一篇】 【下一篇】

    0 Comments.