本站所列毕业设计(论文)资料均属于原创者所有,初衷是为大家在毕业设计(论文)过程中参考和学习交流之用。

毕业设计我帮你

基于Python的电影票房爬取及分析

基于Python的电影票房爬取及分析

近年来,互联网技术高速发展,其中大数据成为业界与学术界的热门话题之一,数据已经成为企业的重要资产。互联网上大量的公开数据为我们个人和公司 提供了以往想像不到的可以获取的数据量。通过利用Python 的爬虫技术,抓取 全球影视排行榜上的的相关据,并将

如需购买请QQ扫描右边二维码或者加QQ 3449649974 咨询 毕业设计(论文)代做请加QQ 2269757180 微信号:bylwwwww


  • 详细描述

    基于Python的电影票房爬取及分析
    摘要:本文用 Python 语言借助库文件 Beautiful Soup 和 requests 为研究出发点,利用计算机技术,对全 球影视排行榜上的数据进行分析和处理,其中包含了数据提取,数据分析和数据结果可视化三个主要部分。 爬取程序首先使用 Python 开发工具 Pycharm,用 requests 库中的 get 方法获取网页内容,然后利用库文 件 Beautiful Soup 对网页内容进行解析,有待分析的数据被提取出来后保存到 CSV 文件中,利用 pandas 分析数据之间的相关性,将分析结果导入到CSV 文件中,并将最终结果通过 Echarts 进行可视化展示;对 子网页则用 lxml库文件解析网页内容,使用路径表达式XPath 来选取 XML 文档中的节点或者节点集,将 子网页的内容提取到CSV 文件中,利用 jieba 对数据做分词处理,最后引入 word cloud 把带权重的关键词 渲染成词云。
    关键字:电影票房; 网络爬虫;分词;词云图
     
    目  录
    第一章 序言 1
    1.1 研究背景 1
    1.2 研究意义 1
    1.3 主要内容 2
    第二章 功能设计 3
    2.1 程序设计架构 3
    2.2 程序设计模块 4
    第三章 开发环境介绍 6
    3.1 运行环境 6
    3.2 网络爬虫 6
    3.3 库文件 requests 和 Beautiful Soup 7
    3.4 pandas 包 9
    3.5 jieba  库 9
    3.6 LXML 库 10
    3.7 库文件 Word could 10
    第四章 详细设计 11
    4.1 数据获取 11
    4.2 数据分析及数据可视化 17
    4.3 数据统计分析与可视化 22
    第五章 总结 28
    5.1 全文总结 28
    5.2 致谢 29
    第六章 参考文献 30
     
    第一章 序言
    1.1 研究背景
    随着社会快速发展,大多数人的基本的物质生活已得到解决,精神食粮也在 被迫切需求着,处于此大背景下,我国的影视行业飞速发展,已然成为一个有着 殷实家底的大产业。在改革开放后,随着影视行业的互联网化改革,电影、电视 剧等影视作品逐步深入我们的日常生活。由此,人们可以在互联网上获得许多的 相关信息也可以在互联网上在线观看,不必一定要去影院了,人们有更多的选择。 的确影视产业的丰富化和多元化给我们带来了更多的选择,让我们有了更多不同 的观感,但是丰富化和多元化同时也导致了数据量的激增,为了给观众更好的观
    影体验,影视排行榜应运而生。
    本文选择全球电影票房排行榜作为数据来源,利用库文件 Beautiful Soup 对 数据进行处理分析,爬取字段包括排名、电影名、上映时间、电影类型、导演和 全球票房,共计 6 个字段,然后对提取后的数据进行可视化分析,了解他们的内 在关系;用库文件 lxml对子网页中数据进行解析,拿到电影的简介,将信息存 到 CSV 文件里,使用jieba 分词,将带有权重的关键词从 CSV 文本里提取出来 并统计词频,再利用 word cloud 加载文本设置词云样式。对以上的数据进行分析 后,可以了解到数据之间的内在联系,找到影响票房的因素。
    1.2 研究意义
    影视作品的评分和一些大 V 的影评的确影响了许多人的选择,但票房才决定 了一个影视作品的在它的受众群体里的口碑。票房的高低不仅会影响观众的选 择,也决定了它的商业价值。在全球化的文化大舞台上,世界各国大放异彩,百 花齐放。美国的科幻大片、韩国的偶像剧、日本的动漫、剧情跌宕起伏的泰剧等 等都影响着日新月异的中国、影响着世界。但是中国能影响世界的文化有限,外 国人往往只能看到浅层的中国文化,真正的文化内涵需要影视作品来表达。为了 更加了解全球影视行业发展状况,促进我国的影视行业的发展,我们可以分析全 球电影排行榜上的相关数据,对处于排行榜上的的数据进行可视化分析,了解作 品的基本信息如电影的票房、类别和执导导演等等相关信息,从而分析得出数据 之间的相关性,找出影响票房的因素并对文化产业的发展趋势做进一步的预测。
    1.3 主要内容
    本文用 Python 语言对全球影视排行榜上的数据进行爬取和存储,借助库文 件 Beautiful Soup 解析文档抓取网站首页的数据,将抓取到的数据导入进 CSV 文 件中,再利用 pandas 对抓取的数据进行分析,结合 Echarts 对分析后的结果进行 可视化;借助库文件 LXML 解析子网页然后用 XPath 语法来定位抓取子网页中电 影的票房资讯和简介,利用jieba 库将获取后的文档进行分词,把出现频率高的 词语绘制成词云。
    选用Python 来编写爬虫程序,是因为 Python 简单,容易上手,功能强大, 并且有丰富多样的函数库来帮助我们。Pandas用于数据分析,是分析结构化数 据的强大工具集,主要用于数据挖掘和数据分析,并提供数据清理功能。Echarts 用于数据可视化。Echarts 是基于 JavaScript 的数据可视化图表库,开发和使 用非常方便,可以直观地显示分析后的数据。Jieba 是一个优秀的第三方中文分 词数据库,它可以通过分词的方式从中文文本中获取单独的单词。
     
    参考文献
    [1]崔庆才.Python3 网络爬虫开发实战[M].北京:人民邮电出版社,2018:591.
    [2]魏伟一,李晓红.Python 数据分析与可视化[M].北京:清华大学出版社, 2020:235.
    [3]唐松.Python 网络爬虫从入门到实践[M].北京:机械工业出版社,2019:279.
    [4] Asimov__. 爬 取 猫 眼 电 影 评 论 及 数 据 分 析 ( 三 ) 之 数 据 可 视 化 [EB/OL].etails/96018444?utm_medium=distribute.pc_relevant.none-task-blog-baid ujs_title-0&spm=1001.2101.3001.4242,2019-07-15 20:44:54/2021-04-09.
    [5] 高巍,孙盼盼,李大舟.基于 Python 爬虫的电影数据可视化分析[D].沈阳化 工大学,2020:11.
    [6] 李宁.Python 爬虫技术:深入理解原理、技术开发[M].北京:清华大学出版 社,2020:488.
    [7]沈祥壮.Python 数据分析入门:从数据获取到可视化[M].北京: 电子工业出 版社,2018:256.
    [8]李彦.基于 Python 的网络爬虫技术的研究[J].电子世界,2021(03):39-40.
    [9]庄礼金,戴泽鑫.网络爬虫的设计与实现[J].信息技术与信息化,2020(12):47-49.
    [10]简悦,汪心瀛,杨明昕.基于Python 的豆瓣网站数据爬取与分析[J].电脑知 识与技术,2020,16(32):51-53.
    [11]葛琳,杨娜.Python 招聘数据分析[J].计算机与网络,2020,46(16):62-65.
    [12]杨众.基于 Python 语言的招聘信息可视化分析[J].计算机与网络,2020,46(02):61-64.
    [13]黎曦. 基于网络爬虫的论坛数据分析系统的设计与实现[D].华中科技大 学,2019.
    [14]穆翠霞.基于Python 和Echarts 的商品评价文本的可视化设计[J].电脑知识 与技术,2020,16(35):11-14.
    [15]张楚.基于Python 的文本可视化方法实现与应用[J].科学技术创 新,2020(28):144-145.
    [16]裴丽丽.基于 Python 语言对电影影评数据爬虫与词云制作[J].信息记录材 料,2020,21(05):116-118.     
     [17]石凤贵.中文文本分词及其可视化技术研究[J].现代计算机,2020(12):131-138+148.
    [18][1]包琛,汪云海. 词云可视化综述[J]. 计算机辅助设计与图形学学 报,2021,33(04):532-544.
    [19]陈丽萍,吴其林,李小荣.  “大数据分析”课程案例设计与分析—— 以网络 新闻分析案例设计为例[J]. 内蒙古财经大学学报,2021,19(01):26-28.
    收缩