从技术角度来看,网络舆情监测是多种技术相辅相成的成果。一般来说,舆情监测技术手段主要包括以下几种方式:
一、网络舆情采集
在信息收集这一步中,主要包括网络爬虫(We-bCrawler)和网页清洗(WebPageCleaning)等技术。
网络爬虫是一个按照一定规则自动抓取网络信息的程序,又称为网络蜘蛛。通常分为三类:通用爬虫 ,面向主题爬虫 ,面向DeepWeb爬虫。因为网络舆情监测一般是对行业进行监测,使用更多的是面向主题爬虫。
网页清洗就是从网页中过筛掉“噪声"数据,提炼出网页中所需要的信息内容。网页清洗的分析方法主要有三种:基于树结构分析方法,基于Web挖掘方法,基于正则表达式方法。基于树结构分析方法应用最多,但它十分依赖各个网站网页的结构。
二、自动分类
网络舆情分类是将收集的舆情进行自动分类,是发现舆情的关键步骤,主要运用了自然语言处理中的文本分类和文本聚类等技术。
三、话题跟踪
是指对网络舆情聚类分析后,根据算法确定热点问题,再根据算法跟踪话题发展趋势,是网络舆情监测中的核心技术。
四、情感分析
指对主观性文本进行分析、处理、归纳和推理的过程。分为:情感信息抽取、情感信息分类、情感信息的检索与归纳。
【文章声明】识微科技网倡导尊重与保护知识产权。本网站文章发布目的在于分享舆情知识。部分内容仅是发稿人为完善客观信息整理参考,不代表发稿人的观点。未经许可,不得复制、转载、或以其他方式使用本网站的内容。如发现本网站文章、图片等存在版权问题,请及时联系并发邮件至zhangming@civiw.com,电话:4008299196,我们会在第一时间删除或处理相关内容。