职称论文咨询网,专业提供留学生论文、职称发表论文等各类论文学术咨询服务的论文网站。

当前位置:首页 > 论文百科

基于文本聚类与情感分析的群租房微博舆情量化研究-经济职称论文发表范文

来源:职称论文咨询网发布时间:2022-06-05 21:22:55
摘要[目的/意义]作为城市化进程中的“顽疾”,群租房屡禁不止,群租房引发的社会问题层出不穷。这一系列问题引发了微博热议,群租房微博舆情文本分析有助于获悉群租房存在的问题,从受众角度探讨政府群租房治理成效。[方法/过程]利用网络大数据爬取与分析技术,以群租房为研究对象,通过文本聚类分析与情感分析,进行热点评估,补充现有文献中忽视的群租房治理舆论研究。[结果/结论]研究发现,微博网民对群租房话题的关注明显呈波动趋势,讨论话题主要包括群租房产生的社会问题、政府对群租房的整治行动评价以及透过群租房现象折射出的中低收入群体的焦虑感。大多数微博网民在舆论场中的情感趋势为负面,认为有必要对群租房展开治理。本文的创新之处在于分析政府治理群租房所面对的舆论环境,并将其可视化呈现,为政府深入了解民情,制定适应民意的政策作铺垫。   关键词:群租房,社会舆情,文本聚类,情感分析   1引言   微博作为Web2.0时代的产物,为人们发布信息、发表观点提供了较为自由的社交场景。舆情(PublicOpinion)即公众舆论,是指公众对于各种社会现象、问题从信念、态度、意见和情绪等角度所作出的表达[1]。微博作为重要的舆论场,诸多社会问题均在微博中得以反应。我国城市化的快速发展促使大批非城市户籍人口涌入城市。大城市因其丰富的就业机会和资源吸引大量外来务工人员,然而,一线城市高昂的生活成本成为困扰他们的难题之一。   为降低居住成本,他们纷纷选择群租方式,群租房亦日渐成为大都市生活形态中一个挥之不去的组成部分,“蜗居”、“鸽子笼”、“房中房”成为大城市居住空间中的一种新形态。不容忽视的是,在享受群租房低廉租金的同时,外来人员还必须面对群租所带来的一系列安全风险。而每一起突发事件都会成为舆情爆点,引发人们的热烈探讨。群租房作为社区管理的重大隐患之一,迫切需要政府采取有效措施加以规范与管理。不过从实践效果来看,群租房治理却陷入困境。   北京、上海、广州等国内一线城市纷纷出台出租房屋条例和规定,限制乃至取缔群租。政府各部门也先后多次开展集中整治群租房行动。各地政府的每一次整治行为便会引发社会媒体的广泛关注。然而,面对众多的自媒体讨论,要全面了解民众对群租房的看法与态度存在诸多挑战。围绕群租房整治行动,一部分群体抨击政府整治行动的强硬、粗暴,忽视弱势群体利益,而另一部分群体又强烈支持政府各项整治行动以消除群租房带来的社会风险。目前围绕群租房整体舆论趋势的研究鲜有学者涉及。因此,本文期望利用大数据爬取技术,对社交领域使用用户最多的新浪微博中关于群租房的讨论进行爬取,并借助文本聚类分析和情感分析整体分析网络舆情,探寻治理群租房所面临的宏观舆论环境。   2群租房问题与微博舆情文献综述   截至目前,学者已经对群租房相关问题进行大量研究,主要研究群租房概念、群租房产生的问题以及群租房治理对策等。目前比较一致的观点认为群租是一种租赁关系[2]。群租虽然为大城市低收入阶层提供了居住场所,但无序的群租行为也带来大量的治理问题。学者对于群租房引发的问题探讨主要集中在群租房引起的社会安全[3]、消防安全[4-8]、邻里矛盾[9]、物业管理困难[10-11]等方面。面对群租带来的一系列治理问题,实务界和学界对群租房的治理路径也进行了探析。   从政府实际行为看,运动式治理是政府治理群租房的主要手段[6,12]。但运动式治理面临着治理成本高、效率低,难以达到根治效果[15]。从学者们的建议看,多中心治理[13]、协同治理[14]是治理群租房较有效的方式。虽然学者已经意识到群租房存在的社会问题,并探讨了群租房治理方式,但是,目前还没有学者对群租房舆情进行过研究。黑格尔曾言“无论哪个时代,公共舆论总是一支巨大的力量”,微博舆情可以较大程度的反映民众心声,是政府治理不可忽视的重要部分。民众对群租房治理问题持怎样的态度、观点,直接影响着群租房治理成效。   目前,学者对微博舆情的研究多集中在新闻传播、管理学和计算机科学等领域。计算机科学领域对微博舆情文本分析的研究多是以算法为支撑为微博舆情信息获取[15]、关键词提取[16]、文本聚类[17]、情感分析[18]、舆情可视化[19-20]等提供方法论基础,本文是建立在这些方法基础之上的。对群租房问题引发的舆情的研究鲜有学者涉及,微博舆情文本分析及其可视化方法已日渐成熟。   基于既定热点“群租房”进行的微博舆情文本分析也是一种新的研究视角和研究问题。将文本聚类、微博舆情分析方法运用到对群租房微博舆情的分析中既是将微博舆情文本分析方法用于公共治理研究的有益实践,也拓展了研究途径,丰富了群租房治理问题的研究方法。   3数据基础与研究方法   3.1数据获取   本文利用网络数据爬取技术提取微博舆情数据,挖掘社会民众对群租房治理的态度,尝试分析群租房治理过程中展现出来的社会舆论特点,建构治理的舆论大背景。微博舆情数据具体搜集情况如下:虽然新浪微博提供了开放的API,但是其提供的API当中的话题搜索高级API,能够搜索到的微博信息只有503条,并不满足研究的需求。故我们采用自行爬取的方法对微博平台进行关键字的爬取。   本文通过使用Python开源框架Scrapy,以“群租房”为关键词,采用深度优先的策略对网页数据进行爬取,以下是爬取关键字的伪代码:Begindefcrawler_key_words(key_words):Getpage_dataGeturlsIfmatch(key_words)   crawler_key_words(key_words)End在爬取过程中遇到了三个问题:(1)微博需要登录后才能浏览相应的搜索结果;(2)微博设置了搜索结果显示的上限,限定为1000条,而与群租房有关的微博数量超过十万条;(3)微博的Web端采用了动态获取的方式加载信息,加大了信息获取难度。为解决这三大问题,我们采取了以下应对措施。针对登录问题,我们采用模拟登录的方式解决。一般而言,模拟登录有两种方式:一是在程序中向网站发出登录请求,也就是提交包含登录信息的表单(用户名、密码等),然后从响应中得到Cookie,以后在访问其他页面时也带上这个Cookie,这种方式可以打开只有登录后才能看到的页面。   但是该也会遇到诸如反爬加密、验证码等一系列复杂而且麻烦的问题。第二种方式是使用无头浏览器访问,在Python中可以使用Selenium库来调用浏览器,从而达到模拟人为登录的操作,登录之后获取到Cookie就能进行爬取工作。考虑到第一种方式的弊端,本文采取了第二种方式进行模拟登录。   针对微博搜索上限限定的问题,实际处理中采用高级搜索功能,按照时间跨度进行搜索。将时间跨度调整到适当的大小,使得每次搜索显示的条数在1000条以内,通过对不同时间跨度的搜索,得到所有的微博信息。针对微博动态加载问题,通过采取爬取微博Wap端,而不是Web端来解决。微博的Wap端没有采用动态加载的方式,可以直接获取所有的微博信息。通过以上解决方案,我们能够利用Python对新浪微博进行关键词爬取。   但自2018年开始,微博的反爬机制会自动识别爬虫程序,对爬取所用的账号甚至是IP限制访问,因此每次爬取速度不宜过快。再加上在爬取的过程中,也有一定概率被识别成爬虫,需要重新定向到登录页面。这都导致对微博爬取的过程耗时长,成功率较低。鉴于以上情况,我们爬取了2011至2018年所有时间段的部分数据,重点针对北京群租房大火事件等一些特殊时间节点进行了多次爬取。最终成功获取了2011年至2018年1月以“群租房”为关键字的16294条微博信息,作为后续研究的舆情数据。   3.2研究方法   本文主要采用R语言分析工具进行微博舆情分析。随着R版本的逐渐成熟和稳定,R在行业里的应用得到了飞速发展。R语言可在Windows、MacOS、Linux等多种操作系统使用,拥有强大的数据分析功能和丰富的数据可视化效果。实验中运用R主要进行中文文本分析,包括聚类分析与情感分析[21]。   3.2.1文本聚类分析   聚类分析是指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程,目标是在相似的基础上收集数据来分类。聚类的各指标之间具有一定的相关关系,常见的聚类有层次聚类与非层次聚类。本文的聚类主要是利用R语言结合K-means算法对中文分词之后的词语进行主题词聚类,挖掘分词之间的共现关系。中文分词主要利用R语言编程软件,主要利用开源包jiebaR中的segment函数对文本进行分词,并利用tibble包的as_data_frame函数将分词了的文本转化为标准化格式,以备后期文本聚类分析使用。   4群租房舆情分析   自媒体时代,微博为公众赋予了充分的话语权,微博也因其独有的便携性、匿名性和共享自由成为网络舆情的重要发源地[23]。对微博舆情的分析主要从三个方面进行:(1)群租房微博数据处理和讨论概况;(2)群租房微博文本内容分析;(3)群租房微博情感分析。   4.1群租房微博数据处理和分布趋势   利用网络爬虫技术对群租房信息进行扒取,共获得16294条数据。对爬取到的数据为空白的无效数据进行删除,对获取数据的时间、ID、内容等进行筛选后的重复数据进行删除,共获得14053条数据。为了了解群租房舆情热点分布情况,对群租房微博数量按照月份进行统计。   4.2群租房微博舆情内容文本分析   为明确群租需求与群租社会问题的主要内容,我们尝试利用计量工具R的词频统计和聚类功能对微博舆情中具体内容进行分析。   4.3微博文本情感分析   本文将2011-2018年的微博文本按月份进行拆分,通过计算每个月的微博文本中正向情感词与负向情感词,对整月的文本情感贡献的差值绘图,得到2011-2018年微博文本的整体情感倾向,其中横轴代表时间,从2011年1月至2018年1月共81个月,排列顺序从1至81;纵轴表示情感倾向,数值等于积极情感词数减去消极情感词数。   从中可以看出,近八年来,公众的情感差值基本维持在较负面消极的水平。导致这种现象的原因主要有三个,一是大部分群租房都存在违法行为,政府取缔群租房引发群租房群体的住房焦虑;二是群租房事故频发,给群租租房者、房东抑或是邻里带来很大困扰;三是长期以来有关群租房的负面新闻不断,这使得公众对群租房的整体印象较差。虽说公众情感整体呈现较为负面的水平,但仍有部分月份呈现出积极的情感倾向,这多与政府的治理举措有关。   政府在治理群租房的过程中并非仅仅是运动式搜索、取缔,也会进行诸如群租房整改、打击黑中介、群租房安全知识宣传与消防安全检查等行为,这些行为本质上对租客与业主双向利好,因此会引发群众积极的评论。除此之外,政府在整治群租房过程中并非只堵不疏,如2017年7月住建部等九部委下发了《关于在人口净流入的大中城市加快发展住房租赁市场的通知》,积极推行租购同权、试点商改租、大力治理群租房。这些举措得到群众较大支持,在图中呈现出正面的情感倾向。   加快大中城市住房租赁市场发展让更多底层人民租得起正常的住房更是解决群租房问题最根本的措施,获得较多积极评价。政府对群租房的治理虽具有一定成效,但目前房租如房价一般居高不下,高额房租使他们不得不选择群租房,群租房整体状况仍旧堪忧,舆情整体呈现出较为负面的倾向。   5结论   本文利用R语言分析工具,结合词频分析、聚类分析和情感分析等方法,对北京市群租房的微博舆情状况进行了研究,讨论了微博网民对群租房话题的关注度与情感倾向。通过研究发现2011-2018年网络对群租房的关注呈波动趋势且与群租房热点事件密切相关,而2013、2014、2017年相关话题的讨论最多,分析发现讨论的具体话题包括群租房产生的社会安全、消防治安问题,政府对群租房的整治行动与措施等,揭示出群租房背后反映的中低收入住房群体焦虑现状。   通过情感分析发现网民虽然认为群租房存在有其必然性,但由于群租房容易导致诸多安全隐患,所以大众普遍认为对群租房的整治也必不可少,其中民众对政府的安全教育、消防检查、发展租赁市场保障租户权益等持支持态度。但整体而言,微博网民的情感趋势为负向,反映出在这一治理领域基本的社会情绪。   本文的创新之处在于通过大数据爬取和R语言分析手段在宏观层面分析政府治理群租房所面对的舆论环境,为政府开展治理行动奠定舆论基础,增加政府对群租房治理的行动信心,使政府行为真正成为民之所向。同时本文的分析方法也为群租房问题的研究提供了新的视角,有利于更全面地分析群租房问题。此外,本文仍存在一定的不足之处,文中对群租房微博舆情的分析仅对群租房折射出的社会问题、政府治理难题进行了一定程度的分析,并对民众对政府行为持积极态度的方面进行了分析,但对于如何因地制宜治理群租房还需要全面深入的研究与探索。   参考文献:   [1]周金元,张莎莎.国内微博舆情研究的文献计量分析[J].图书情报研究,2014,7(2):45-49.   [2]宋安成.禁止“群租”关键看执法[N].房地产时报,2007-01-29(A07).   [3]张孟佳,万发文.“群租房”刑法属性的实践分析[J].上海公安高等专科学校学报,2013(2):82-85.   [4]郭骏峰.“群租房”建筑消防安全存在的问题及处置对策[J].门窗,2016(09):238.   [5]丁伟.浅谈群租房的消防安全问题及管理对策[J].湖北科技学院学报,2016(7):143-144.   [6]刘艳敏.群租房整治的反向思考[J].新安全东方消防,2008(9):72.   [7]王婷涵.浅谈某辖区群租房消防安全突出问题及整治对策[J].消防技术与产品信息,2016(12):69-71.   [8]林震.对群租房相关消防安全问题的思考[J].消防技术与产品信息,2010(4):22-24.   相关刊物推荐:《消防技术与产品信息》(月刊)创刊于1988年,由中国消防协会主办。本刊是一体集资料性、实用性、信息性为一体的专业杂志。其办刊宗旨是:传番消防学术研究成果,宣传国内外先进消防技术和经验,及时沟通信息,为发展消防技术,提高消防产品质量,减少火灾损失服务。
相关阅读
学术咨询服务