基于文本分析的电影短评研究 - 以电影《热辣滚烫》为例
(中央民族大学, 北京 100071)
摘要: 传统的电影评价通常获取自专家评论或调查问卷, 但它们无法全面反映观众的真实意见。网络媒体和在线评论兴起使得网络文本成为一种可以帮助我们了解观众对电影的评价, 以评估电影质量的宝贵的资源。本研究以电影《热辣滚烫》为例, 收集了2024年2月10日至2024年6月10日期间大量网络评论数据, 基于ROST_CM6, 运用自然语言处理和文本挖掘技术对这些评论进行分析, 探究影响电影质量的因素。第一, 研究评价文本中的情感极性, 以确定观众对电影的整体情感倾向。第二, 分析评论中提及的电影特征, 如剧情、演员表现、视觉效果等, 并探究了这些特征与电影质量之间的关联。另外, 本研究借助议程设置理论的分析视角, 深入地探讨了媒体如何通过报道策略影响观众对这些话题的认知与评价标准, 以期为未来的电影创作与营销策略提供有益的参考。
关键词: 网络文本, 文本分析, 电影评论, 观众反馈, 情感分析
DOI: 10.48014/jcsb.20240814006
引用格式: 李泽宏, 赵宇宸, 韩旭. 基于文本分析的电影短评研究———以电影《热辣滚烫》为例[J]. 新闻与传播科学通报, 2024, 1(2): 16-22.
文章类型: 研究报告
收稿日期: 2024-08-14
接收日期: 2024-10-14
出版日期: 2024-12-28
0 引 言
随着社交媒体的普及,Twitter、Facebook、微博、豆瓣等成为人们表达观点、评价电影的主要渠道。这使得研究者可以通过分析社交媒体上的电影评论数据,获取广泛而实时的观众反馈。文本挖掘技术的快速发展,使得研究者即使面对大量数据,也可以有效地处理和分析。文本分析包括情感分析、主题建模、关键词提取等,它能够从海量的电影评论数据中提取有用的信息,并进行定量分析和综合评估。
电影产业竞争激烈,制片人和发行商需要了解观众对电影的反应和评价,以制定更有效的营销和推广策略。通过分析网络评论数据,可以获取关于观众喜好、口碑传播和社交影响力等方面的信息,为电影市场竞争提供决策支持[1]。
统计语言处理早期的工作主要聚焦于词频统计、语言模型和信息检索等任务。1960年,Chomsky的语法理论和Shannon的信息论给文本处理领域的研究者带来了启发,促进了自动文本处理的发展。后期研究者开始将规则和知识引入文本处理的方法中,如语法分析和语义分析,以实现自然语言理解。从1990年开始,统计机器学习方法又逐渐成为文本分析的主流方法。随着互联网的普及和大规模文本数据的涌现,文本挖掘成为热门研究方向,继而提出了关键词提取、主题建模、情感分析等文本挖掘技术。
如今,随着深度学习和社交媒体分析的兴起,深度学习模型如卷积神经网络(CNN)和循环神经网络(RNN)等在文本分类、情感分析和文本生成等任务上取得了突破性进展。同时,社交媒体的普及和大规模用户生成的可用性文本数据,推动了社交媒体分析的发展。社交媒体分析通过文本挖掘、情感分析和社交网络分析等技术,揭示社交媒体数据中的趋势、倾向和影响力。
目前,国内外在网络文本分析领域都取得了显著的进展。国外研究者在社交媒体分析、舆情分析和文本生成等方面具有较强的实力和应用经验。国内研究者在微博情感分析、电子商务评论分析和舆情监测等领域也有一定的研究成果,并在实际应用中取得了一些成就。随着技术的发展和应用场景的不断拓展,网络文本分析在国内外均有着广阔的发展前景[2,3]。
本研究选取的研究对象是2024年豆瓣平台下的热门电影《热辣滚烫》。该电影票房34.6亿,不仅观影人次屡创纪录,票房突破30亿元大关,成为春节档最卖座的电影,导演更凭独特的风格,一举成为百亿票房女王。因此本研究选取豆瓣平台下2024年2月10日至2024年6月10日期间的观众短评作为原始数据进行分析,通过爬虫共采集890条评论,剔除重复评论、无效评论后得到有效评论771条。
1 网络文本分析
1.1 词频分析
本文通过Roster CM6软件对网络评论进行分词统计与词频统计,整理出该电影短评的高频词如表1。高频词是文本特征词的量化,对高频词的归纳分析可以得出顾客对电影质量的关注点。
(1)爬取短评中的高频词通常与电影的主题和情节密切相关。一方面,通过分析这些高频词,可以了解到电影讲述的故事、突出的情节线以及核心主题。另一方面,对于那些还没有观看电影的人来说,可以提供一个初步的了解,帮助他们明确对该电影的观看意愿程度。
(2)高频词汇显示了观众在电影评论中最为关注的方面。观众对电影的不同方面可能表达出不同的兴趣,例如演员表演、剧情发展、视觉效果、音乐,等等。通过分析高频词,可以了解到观众对电影的哪些方面感兴趣,这对于制片方和电影营销人员来说是有价值的信息,可以帮助他们更好地了解观众的需求和喜好。
(3)高频词统计还可以揭示评论者对电影的情感和态度。评论者在评论中使用频率较高的词汇可能暗示了他们对电影的喜好或厌恶等情感。例如,积极的词汇如“精彩”“感人”“出色”等可能表明评论者对电影持积极态度,而消极的词汇如“乏味”“失望”“平庸”等则可能表示否定的意见。
表1 高频词汇分析
Table 1 High-frequency vocabulary analysis
词频数量 |
词汇 |
词频>100 |
导演 578 |
|
电影472 |
|
减肥 222 |
|
女性 207 |
|
演员 170 |
50<词频<100 |
故事 78 |
|
人物 75 |
|
营销 73 |
|
观众 71 |
|
拳击 66 |
|
真诚 64 |
|
自我 63 |
|
励志 57 |
|
剧情 53 |
|
角色 51 |
|
成功 51 |
|
讨好 50 |
|
热辣 50 |
|
感动 50 |
词频<50 |
喜剧 48 |
|
苹果 45 |
|
感受 45 |
|
表演 45 |
|
打动 44 |
|
拒绝 43 |
|
逻辑 43 |
|
叙事 43 |
|
梦想 41 |
|
宣传 41 |
|
成长 40 |
|
主角 40 |
|
社会 40 |
|
节奏 40 |
|
纪录片 39 |
|
情感 35 |
|
情节 35 |
此词云图(图1)揭示了电影评论中观众关注的主要方面。评论中充满了个人的感受和详细的描述,反映了观众对电影的印象深刻的方面以及多方面的评价。词云图的直观展示,有助于迅速了解评论的核心内容、聚焦观众的关注点。
图1 词云图
Fig.1 Word cloud diagram
通过观察发现,主要关键词有导演,这是词云中最显著的词语,表明评论中频繁提及导演,可能讨论了导演的表现、风格或影响力。“她”这个词也非常突出,暗示评论可能集中讨论了一位女性角色或者女性导演。而电影作为中心主题,评论显然围绕电影展开。如关键就、但、还、要:这些连接词和助词的频繁出现,表明评论中有大量的细节描述和论述[7-9]。
1.2 共现分析
提取高频词后,过滤掉词表中无意义的词,提取行特征后,构建出共词矩阵。在共词矩阵中,数值越大,代表相关词之间的联系越紧密,便于对词汇进行分类(表2)。
(1)通过分析评论中情感词汇的共现情况,可以了解观众对电影的整体情感倾向。例如,“精彩”“感动”与“电影”频繁共现,可能表明观众对电影持积极评价。
(2)通过比较不同电影评论的共词矩阵,可以发现观众对不同电影的评价异同。这对于电影市场分析大有裨益。
(3)基于共词矩阵可以将评论聚类成不同主题或情感类别。例如,将提到“幽默”“搞笑”的评论聚类到一起,可以发现观众对电影的喜剧元素的评价。
表2 共词矩阵分析
Table 2 Co-occurrence matrix analysis
|
导演 |
电影 |
减肥 |
女性 |
故事 |
这部 |
营销 |
观众 |
导演 |
|
172 |
107 |
81 |
48 |
44 |
28 |
49 |
电影 |
172 |
|
83 |
56 |
31 |
51 |
34 |
34 |
减肥 |
107 |
83 |
|
36 |
25 |
29 |
29 |
19 |
女性 |
81 |
56 |
36 |
|
|
|
|
|
故事 |
48 |
31 |
25 |
|
|
|
|
|
这部 |
44 |
51 |
29 |
|
|
|
|
|
营销 |
28 |
34 |
29 |
|
|
|
|
|
观众 |
49 |
34 |
19 |
|
|
|
|
|
拳击 |
30 |
22 |
24 |
|
|
|
|
|
真诚 |
41 |
26 |
|
|
|
|
|
|
此共词网络图(图2)揭示了评论中的主要关键词及其相互关系。图中的每个节点代表一个关键词,节点之间的连线表示这些词在评论中频繁共现的关系。
图2 共词网络图
Fig.2 Co-occurrence network diagram
(1)关系网络图分析
电影与观众、情感、演员等词汇相连,表明评论中这些词汇与电影主题关联密切;减肥连接到成功、励志、努力等词汇,提示观众可能认为这部电影具有激励人心的效果;节目与比赛、改造、结尾等词汇相连,暗示电影可能与一种竞赛或改造类节目相关。
(2)关键词的分类与分布
① 情感和评价:如感动、励志、真实、值得等,反映了观众对电影的情感反应和评价。
② 情节和内容:如故事、角色、结局、情节等,描述了电影的具体内容和情节发展。
③ 人物和表演:如演员、女主、杜乐乐等,涉及电影中的人物和表演者。
④ 观众反应:如观众、感受、情感等,展示了观众的反馈和反应。
1.3 情感分析
本文通过ROST CM6系统对收集的数据进行处理,分别得到正面、中性、负面三类评论数据。分析结果显示:积极情绪459条,占比59.53%;中性情绪数量75条,占比9.73%;消极情绪数量237条,占比30.74%。见表3。
表3 情感分析
Table 3 Sentiment analysis
分析结果 |
数量/条 |
占比/% |
积极情绪 |
459 |
59.53 |
中性情绪 |
75 |
9.73 |
消极情绪 |
237 |
30.74 |
一般积极情绪占比最高,为24.25%,见表4。这表明大多数评论者对电影持有一定的正面评价,但情绪较为温和。中度积极情绪的评论占比为14.27%,显示了一部分观众对电影有较高的认可和满意度。高度积极情绪的评论也占了较大比例,为21.01%,表明有相当数量的观众对电影表现出强烈的喜爱和高度赞赏。通过对积极情绪的分段分析,可以更好地理解观众对电影的正面反馈程度。大多数评论者在一定程度上对电影表现出积极情绪,尤其是大量高度积极的评论,表明电影在观众中获得了很好的反响。这对电影的整体评价和口碑有着重要的积极影响[4]。
表4 积极情绪数量及占比
Table 4 Quantity and proportion of positive sentiments
积极情绪分段 |
数量/条 |
占比/% |
一般(0~10) |
187 |
24.25 |
中度(10~20) |
110 |
14.27 |
高度(20以上) |
162 |
21.01 |
一般消极情绪为146条,占比18.94%,见表5。这一部分的评论虽然带有消极情绪,但程度较轻,可能包含对电影的轻微不满或较小的负面情绪。中度消极情绪为52条,占比6.74%,中度消极情绪的评论较为显著,可能包含对电影的多个方面表达不满或批评。高度消极情绪为17条,占比2.2%,表明观众对电影有强烈的不满意甚至是愤怒,可能严重影响了观影体验。通过对消极情绪的分段分析,可以更好地理解观众对电影的负面反馈程度。尽管存在一定比例的消极评论,但高度消极情绪的评论比例较低,这为电影的总体评价提供了积极的背景信息[5,6]。
表5 消极情绪及占比
Table 5 Quantity and proportion of negative sentiments
消极情绪分段 |
数量/条 |
占比/% |
一般(-10~0) |
146 |
18.94 |
中度(-20~-10) |
52 |
6.74 |
高度(-20以下) |
17 |
2.20 |
2 影响电影口碑的因素
2.1 导演
导演是高频词汇之一,这表明观众在评论中频繁提及导演,反映了导演在电影评价中占有重要地位。电影评论中提到的“导演”词频高达578次,表明了观众对导演的关注程度。而导演的风格、执导能力和对电影整体控制力都会直接影响电影的质量,从而影响观众对电影的评价。例如,一位导演的独特风格或成功的执导可能会带来正面的口碑,而不当的执导可能导致负面的评价。积极的词汇如“出色的导演”“精彩的执导”会提升电影的整体评价,而负面的词汇如“糟糕的导演”则可能降低电影的口碑。
2.2 故事情节
在爬取的评论中,“故事情节”一词的占比也比较大,第一,故事情节的连贯性和发展性是评估电影质量的关键因素之一。一个引人入胜、有趣并且合理的剧情发展可以吸引观众,并让他们产生情感共鸣。第二,故事情节中的转折点和高潮部分能够给观众带来紧张、悬念和情感上的高潮体验。这些关键时刻的设置和处理方式会直接影响电影的吸引力和影响力。第三,故事情节中所传递的主题和意义对电影的质量也具有重要作用。一个有深度、有思想性的主题能够引发观众的思考和共鸣,增加电影的艺术价值和观赏性。
2.3 演员
演员一词被提及次数为170次,说明了观众对演员的关注。知名演员通常自带流量和粉丝效应,这也会显著影响电影的口碑。观众对知名演员的期待和关注也会影响他们对电影的初始评价和观影决策。而演员的表演技巧和演技水平直接影响观众对电影的评价。优秀的演技能够使观众产生共鸣,增强角色的真实感和情感表达,从而提升电影的口碑。演员可以通过对角色的塑造和演绎,使角色更加生动和有说服力。如果演员能够准确理解角色的特点、情感和动机,并将其刻画得深入逼真,观众会对电影产生积极的评价[10]。
3 结论与建议
议程设置理论,作为一个起源于20世纪70年代的传播学框架,由美国学者麦库姆斯(McCombs)和肖(Shaw)率先提出,其核心要义在于揭示了媒体如何通过操纵报道的显著性与频率,深刻地塑造公众对各类议题的关注度及认知框架。该理论指出,媒体不仅是信息的传递者,更是议题重要性的仲裁者,通过有选择性地强调某些议题,媒体能够显著影响公众对这些议题的优先级排序与理解深度。
进入21世纪,随着互联网与社交媒体的蓬勃兴起,议程设置理论得以进一步演进,衍生出网络议程设置(Network Agenda Setting,NAS)这一新层次。NAS理论强调,在信息爆炸的网络时代,媒体与公众在议题的认知网络中形成了复杂的交互关系。媒体不仅继续影响单个议题或属性的显著性,更在更深层次上塑造议题与属性之间的内在联系,构建出一个多维度的议题网络。在这一框架下,议题不再是孤立无援的个体,而是与其他议题及属性在认知网络中相互交织、相互影响,共同作用于公众的认知图景。
本文以电影《热辣滚烫》为例,基于文本分析,运用计算机分析技术,深入剖析了该影片的短评数据,发现“导演”与“风格”成为了短评中的高频关键词,且两者间呈现出较高的关联性。进一步地,通过综合考察电影宣传材料、影评文章及观众反馈,本文揭示出媒体对导演风格的广泛报道,频繁使用“独特”与“有创意”等正面词汇进行描述,显著提升了这一属性在公众认知中的显著性。通过对比观众对剧情内容与导演风格的评价,本文发现观众对导演风格的评价普遍高于剧情内容,这一发现有力地证明了媒体对导演风格的报道确实对观众的认知产生了显著影响。
借助议程设置理论的分析视角,本文不仅揭示了电影短评中哪些话题被频繁提及,更深入地探讨了媒体如何通过报道策略影响观众对这些话题的认知与评价标准。这一研究不仅有助于我们深入理解观众对电影的关注焦点与审美偏好,同时也为电影制作方与宣传团队提供了宝贵的市场洞察,为未来的电影创作与营销策略提供了有益的参考。
基于上述议程设置理论对电影《热辣滚烫》观众认知影响的分析,本文为未来电影发展提出以下策略与建议,旨在优化电影创作、宣传及市场定位,以更好地契合观众需求与审美期待。
(1)强化导演风格与品牌塑造:鉴于媒体对导演风格的报道显著影响观众认知,电影制作方应更加重视导演个人风格的挖掘与呈现,通过独特的叙事手法、视觉风格及文化元素,构建鲜明的导演品牌。这不仅能够提升电影的艺术价值,还能增强观众对电影的识别度与忠诚度。
(2)精准定位目标受众:在电影宣传阶段,应充分利用议程设置理论,精准识别并定位目标受众群体,通过针对性的宣传策略与渠道,提高电影信息的到达率与影响力。同时,根据目标受众的偏好与需求,调整宣传内容与形式,以激发观众的观影兴趣与期待。
(3)构建多维度议题网络:在电影宣传与营销过程中,应注重构建电影议题与其他社会、文化议题的关联网络,通过跨界合作、话题联动等方式,拓宽电影的讨论空间与影响力。这不仅能够丰富电影的内涵与外延,还能吸引更多潜在观众的关注与参与。
(4)注重观众反馈与互动:在电影上映后,应积极收集并分析观众反馈,了解观众对电影各方面的评价与需求,及时调整后续的宣传策略与电影制作方向。同时,通过社交媒体等渠道,加强与观众的互动与交流,建立良好的口碑与品牌形象。
(5)创新电影内容与形式:在保持导演风格一致性的基础上,应不断探索与创新电影的内容与形式,以满足观众日益多样化的审美需求。通过引入新技术、新元素及新视角,提升电影的观赏体验与艺术性,为电影市场的持续发展注入新的活力。
利益冲突: 作者声明无利益冲突。
[②] *通讯作者 Corresponding author:李泽宏,1583091733@qq.com
收稿日期:2024-08-14; 录用日期:2024-10-14; 发表日期:2024-12-28
基金项目:本论文是中央民族大学校级教改立项(项目号XJ-JGLX223029)的阶段成果。
参考文献(References)
[1] 刘香. 多元视角下的评价与影响力———国产电影之电影评论[J]. 现代艺术, 2024(01): 16-20.
[2] 程夏敏. 对“豆瓣电影”网站数据和内容的分析———以2021年国产电影为例[J]. 中国电影市场, 2022(07): 23-30.
[3] 张蔓莉. 基于机器学习的电影评论有用性分类研究[D]. 武汉: 华中科技大学, 2023.
https://doi.org/10.27157/d.cnki.ghzku.2021.002661.
[4] 罗向东, 强威, 张希莹, 等. 基于文本挖掘的跑鞋用户评价及情感分析[J]. 丝绸, 2024, 61(06): 108-119.
https://doi.org/10.3969/j.issn.1001-7003.2024.06.012
[5] 李文莲, 郭欣, 殷振华. 基于网络文本分析的智慧酒店服务质量研究———以浙江杭州F酒店为例[J]. 商展经济, 2024(05): 121-124.
https://doi.org/10.19995/j.cnki.CN10-1617/F7.2024.05.121.
[6] 刘晏男, 杨凯, 董小刚. 基于电影评论文本的LSTM情感分析[J]. 长春工业大学学报, 2024, 45(03): 233-240.
https://doi.org/10.15923/j.cnki.cn22-1382/t.2024.3.06.
[7] 张振宇, 喻发胜. 物尽其用: 基于计算机思维的新闻文本挖掘研究———以“中国突发事件数据库”的建设实践为例[J]. 现代传播(中国传媒大学学报), 2019, 41(09): 42-50.
[8] 钟智锦, 王童辰. 大数据文本挖掘技术在新闻传播学科的应用[J]. 当代传播, 2018(05): 12-18.
[9] 刘俊含. 网络狂欢视阈下情感传播研究———基于北京冬奥会微博文本数据的实证分析[C]//中国体育科学学会. 第十三届全国体育科学大会论文摘要集———墙报交流(体育新闻传播分会). 沈阳体育学院研究生部, 2023: 3.
https://doi.org/10.26914/c.cnkihy.2023.062064.
[10] 胡佳珊. 多模态话语分析视角下电影《长安三万里》字幕翻译研究[J]. 今古文创, 2024(28): 100-102.
https://doi.org/10.20024/j.cnki.CN42-1911/I.2024.28.031.
Research on Movie Short Reviews Based on Text Analysis
(Minzu University of China, Beijing 100071)
Abstract: Traditional film evaluations often stem from expert reviews or surveys, but they fail to comprehensively reflect the genuine opinions of audiences. The rise of online media and user comments has made web-based text a valuable resource that can assist us in understanding audience evaluations of films and assessing their quality. Taking the film “Spicy and Hot” as an example, this study collected a vast amount of online comment data from 2024. 2. 10 to 2024. 6. 10 and analyzed these comments using natural language processing and text mining techniques based on ROST_CM6 to explore the factors influencing film quality. Firstly, the study evaluated the sentiment polarity in the text to determine the overall emotional orientation of audiences towards the film. Secondly, it analyzed the film characteristics mentioned in the comments, such as plot, actor performance, visual effects, and explored the correlations between these characteristics and film quality. Additionally, this study employed the analytical perspective of the agenda-setting theory to deeply discuss how media influence audience perceptions and evaluation criteria of these topics through reporting strategies, aiming to provide beneficial insights for future film creation and marketing strategies.
Keywords: Web text, text analytics, film review, audience feedback, sentiment analysis
DOI: 10.48014/jcsb.20240814006
Citation: LI Zehong, ZHAO Yuchen, HAN Xu. Research on movie short reviews based on text analysis[J]. Journalism and Communication Science Bulletin, 2024, 1(2): 16-22.