基于Python的电影票房信息数据的爬取及分析


    


    基Python电影票房信息数爬取分析


    Crawling and Analysis of Movie Box Office Information Data Based on Python


    中文摘
    现民群众物质生活水求已局限衣食住行精神文化更需求电影国越越受欢迎电影业发展越越迅猛充分利互联网技术发展掌握电影业态势信息进行挖掘处理提高数库利率文采文献分析法网络爬虫相关容发展现状进行简单介绍利网页抓取技术爬取电影票房网站相关数进行分析票房分析提供数支撑

    关键词:Python 网络爬虫 电影票房


    Abstract
    Nowadays the people's requirements for material living standards are no longer limited to clothing food housing and transportation and there is more demand for spiritual culture Movies are becoming more and more Fashionable in China and the movie industry is growing rapidly In order to make full use of the development of Internet technology grasp the situation of the movie industry mine and process information and improve the utilization rate of the database This paper introduces the content and development of web crawler by literature analysis and use web page crawling technology to crawl and analyze the box office data related to movie websites which provides powerful data support for box office analysis
    Keywords Python web crawler movie box office
    目录
    摘 1
    Abstract 1
    绪 3
    11研究背景 4
    12研究现状 4
    13研究方法 4
    二系统开发工具相关技术 5
    21 Python网络爬虫 5
    22系统开发工具 5
    221 pycharm工具 5
    222 MySQL数库 5
    223 Hbuilder X工具 6
    23系统台技术 6
    24 系统前端技术 6
    三系统分析 8
    31 系统功分析 8
    32 系统功性需求分析 10
    321 系统户功性需求分析 10
    322 系统理员功性需求分析 12
    33 数获取 14
    34 数分析 13
    35 数展示 13
    四系统设计 15
    41文件结构图 15
    411前端demo文件结构图 15
    412端爬虫系统文件结构图 15
    42前端功模块 16
    43登录注册模块设计 16
    44数库表设计 17
    45数展示模块设计 18
    五系统实现 20
    51解决网站反爬机制 20
    52 实现网络爬虫 23
    521找出url变化规获取链接 26
    522解析获取网页数 26
    523数存储数库 27
    53 登录注册模块实现 28
    54 数展示模块实现 28
    六 票房网站信息数爬取结果分析 32
    612019年票房榜单Top20例分析 32
    62结果分析 32
    七结建议 36
    71结果分析 36
    72足点 36
    73未展 37
    参考文献 38
    致 谢 39






    11研究背景
    年网络Python语言强势发展背景数思维数分析方法逐渐运领域中成进行分析数传播规律效途径助力载关信息仅需花费时间消息非常少网络爬虫获取网页次序会拥量信息信息库里十分效率提取信息解决剖析数变成现实网络爬虫会持续提取网页数储存进通剖析筛选缓存完成数中创建指引储存体系里协助更方便查询搜索爬虫系统提取出藏匿众数信息十分效率搜索程度更运信息数库爬虫系统节约力阅读储存数信息时间协助研究员储存众信息更加便捷获取藏匿数知识
    中国爬虫技探究然开始研发时期国外晚发展势头十分迅猛成果显著爬虫技术研究追溯2003年数探索题学界研讨会渐渐中国传播开国研究员开始慢慢涉足爬虫领域逐渐深入直2007年名研究员爬虫领域取新突破浙罗兵教授研究基古版互联网爬虫技精通剖析领域支撑领域分深入调研载容分解程完善基础越越学者爬虫领域取新突破已获取流动互联网信息提高爬虫领域效时减轻户进行载压力载工作更加高效便捷更新换代爬虫工具已成工作时信息查找信息整理数分析利器爬虫工具发展仅仅推动爬虫技术探究发展十分利专家学者研究反爬虫技术电影行业发展越越快越越深入电影行业断发光发热引起量企业国家统计部门广泛关注数新基建建设时加快电影行业发展目前关电影数采集挖掘技术方案够完善文基网络爬虫理开展电影票房相关数采集挖掘分析猫眼电影票房网站相爬取需数次项目核心文通python编写爬虫脚实现获取票房数方案找出猫眼电影网反爬机制根相关反爬机制进行破解爬取数图表形式进行分析介绍
    12研究现状
    网络爬虫消息探索数值整理进程中发挥着关键作世纪初已科学家爬虫开启探究模式现爬虫技已处成熟阶段网络爬虫动获取网络界面行载需东西基实现幅度数载模式更便利进行高效工作
    国爬虫技发展关探究开启速度较慢续发展非常迅猛2003年该技正式发展国数探索学会越越常态化该区域中探究扩展2007年浙教授罗兵旧版网络爬虫基准增添分析模型该容分析越发完善年国学界专家学者积极探讨破障碍国流动性网络消息获力断提升爬虫体系效增强减弱工完成压迫感逐步实现高效率载务成众查找分解融合信息中缺手段

    13研究方法
    ①著作解法
    ②撰写程序语言:Python语言HTML语言JS语言css语言
    ③信息库技:MySQL信息库技


    二系统开发工具相关技术

    章节表述该课题开发猫眼电影票房数爬取系统开发工具相关技术技术介绍

    21 Python网络爬虫
    Python语言种开源编程语言强功简洁易懂语法系统兼容性广学手成低优势受许开发者青睐Python具高效率简单实现面象编程优势数库直接方便进行操作处理规模较数分析具高效率网络爬虫简言进行网页爬取模拟普通户浏览网页实际爬取数程综合说python网络爬虫利python程序语言编写爬虫程序者脚基python网络爬虫程序开发分三步骤:首先做充分调研确立爬虫象然深入调查该网站反爬虫机制然编写爬虫程序开展爬虫工作获取数获取数清洗滤pngexcelmp4等文件类型者保存着数库等方式保存爬取数常见网络爬虫两种分广度优先爬虫聚焦爬虫中广度优先爬虫适般网络搜索引擎网络爬虫象类似百度谷歌搜狗搜索类搜索引擎采网络爬虫广度优先爬虫技术聚焦爬虫适垂直搜索引擎网络爬虫象类似需搜索某领域容课题采类型聚焦爬虫技术
    综知想者身意见获取目网络界面容满足身求佳办法便身需编写爬虫次序探究驻足猫眼电影网页体系分解爬虫进程中会碰种难题Python语言基准撰写猫眼电影网电影信息数获互联网爬虫程序

    22系统开发工具
    221pycharm工具
    PyCharm款高效简洁Python开发工具代码分析力强户代码程中快速补全pycharm建议代码带项编辑器功十分强
    222 MySQL数库
    MySQL数库款强数库体积占学成低系统兼容性十分优秀方便易懂
    223 Hbuilder X工具
    Hbuilder款HTML编辑器时结合IDE外观该工具界面清爽性敏捷起轻巧 
    23系统台技术
    1 flaskweb框架技术
    Flask基pythonweb框架
    2requests库
    requests库基 urllib系统里requests库功请求目标网站种请求方法等方式
    3 Beatifulsoup 库
    BeautifulSoup种解析器助Python进行开发该解析器规标签进行整理进步建立分析树Beautifulsoup组件功相强功够检索前页容需选取部分输出时够动校格式
    4 Numpy 库
    Numpy 库数组运算系统中破解猫眼电影字体反爬里该库计算欧氏距离配字体
    5 lxml库
    lxml库款解析器解析网页容中发挥着缺角色
    24系统前端技术
    1layui框架技术
    layui款前端UI框架高度模块化独特设计手学成降低中系统演示部分类似导航栏题选择等模块涉layui技术
    2 jQuery技术
    jQueryJavaScript框架接口短清晰插件丰富语法独特性者起十分方便该框架兼容绝数浏览器兼容性十分优秀
    3 Echarts框架技术
    4 ECharts 款前端视化框架者该框架搭建需图表Echarts提供许生动美观图表供者中系统演示部分类似折线图词云图柱状图等数图表ECharts技术


    三 系统分析

    31系统功分析
    电影信息数爬取系统台理模块户模块两模块组成中户模块适象普通户功包括登录注册题设置中心视化展示信息推送功中登录注册功外功需户登录情况接着台理模块适象理者台理模块功:数爬取户理页面理数理理权限较具体功模块示意图31示
    中理员功例图应图33户功例图应图32
    图31 系统功模块示意图


















    图32 户功例图
    图33 理员功例图


    32系统功性需求分析
    节户功理员两模块分阐述功性需求做详细分析介绍通详细分析介绍进步明确系统功性需求接系统设计开发做布置工作
    321 系统户功性需求分析

    图34 户功需求概述图

    图34猫眼电影票房信息数爬取系统户功需求概述图面图34列功进行详细讲解说明
    (1) 户登录功
    户登录功该系统基础功户进入该系统前提登录账号登录账号进入系统系统会开放功供户户未登录账号情况法进入该系统
    (2) 户注册功
    户注册功作户未拥账号状态进行注册获账号更功
    (3) 页面基操作功
    页面基操作功该系统基础功该功具四子功分页面刷新功页面全屏功页面题设置功信息推送容四子功进行详细讲解说明
    页面刷新功:该功页面基础功子功系统页面进行刷新系统页面置初始状态
    页面全屏功:该功页面基础功子功系统页面放全屏状态方便户更详细查页面
    页面题设置功:该功页面基础功子功系统页面题颜色钮进行更改方便户根喜系统页面题进行DIY设置
    信息推送功:该功页面基础功子功查预览户推送信息
    (4) 数视化操作功
    数视化操作功该系统重功该功具五子功分浏览电影票房变化功浏览电影数概括功浏览电影票房榜单功浏览电影演员劳模功浏览电影票房占功五子功进行详细讲解说明
    浏览电影数概括功该功数视化操作功子功全部电影信息数进行概括基信息表格形式展示出方便户浏览查
    浏览电影票房占功:该功数视化操作功子功电影类型票房占情况分柱状图玫瑰图形式展示出户选择年份月份查时期时电影类型票房占情况
    浏览电影票房榜单功该功数视化操作功子功电影票房前电影名字词云图形式展示出户选择年份排行数量查时期时电影票房排行前电影名字票房越高电影名称字号会更方便户电影票房查目然
    浏览电影票房变化功该功数视化操作功子功2015年2019年电影票房走势折线图形式展示出户选择电影类型查该电影类型票房走势情况
    浏览电影演员劳模功该功数视化操作功子功电影演员参演次数情况词云图柱状图形式展示出户选择年份排行数量查时期时电影演员参演次数前演员名字参演次数越演员词云图里名字字号会更柱状图里会更明显
    (5) 户信息修改功
    户信息修改功该系统基础功该功具三子功分户更新基信息功户账号绑定功户修改密码功三子功进行详细讲解说明
    户更新基信息功该功户信息修改功子功户该功更改邮箱昵称简介街道址联系电话信息
    户账号绑定功该功户信息修改功子功户该功修改密保手机密保邮箱绑定QQ绑定微信
    户修改密码功该功户信息修改功子功户该功修改账号密码
    322 系统理员功性需求分析


    图35理员功需求概述图

    图35猫眼电影票房信息数爬取系统理员功需求概述图面图35列功进行详细讲解说明

    (1) 修改户账号信息功
    修改户账号信息功更改户账号密码理员根需求户账号者密码进行更改
    (2) 电影数爬取功
    电影数爬取功该功整套系统核心该功具两子模块分爬取猫眼电影信息数功破解猫眼电影网反爬机制功两子功进行详细讲解说明
    爬取猫眼电影信息数功该功电影数爬取功子功理员猫眼电影网需信息数获取功
    破解猫眼电影网反爬机制功该功电影数爬取功子功利该功破解猫眼电影网部分反爬机制类似数字乱码方面技术难题理员说十分
    (3) 系统模块理功
    系统模块理功该功整套系统实现视化关键该功具四子功面分阐述四子功容:
    新增系统模块功该功系统模块理功子功理员该功新增需系统模块
    删系统模块功该功系统模块理功子功理员该功删需系统模块
    更改系统模块功该功系统模块理功子功理员该功更改需系统模块
    查询系统模块功该功系统模块理功子功理员该功查询需系统模块
    (4) 电影信息数理功
    电影信息数理功该功具四子功分新增电影信息数功删电影信息数功更改电影信息数功查询电影信息数功
    新增电影信息数功该功电影信息数理功子功理员该功新增电影信息数更新系统
    删电影信息数功该功电影信息数理功子功理员该功删电影信息数清洗滤需信息数
    更改电影信息数功该功电影信息数理功子功理员该功更改电影信息数纠正格式规范者错误电影信息数
    查询电影信息数功该功电影信息数理功子功理员该功查询电影信息数查找需电影信息数



    33 数获取
    系统数分析里必少环数获取系统数分析基数展开数获取前明确什数需什需筛选确定数目标进获取数根次课题需获取信息通Python爬取筛选2015年2019年间评分前电影数例电影名评分票房映时间等容

    34 数分析
    确定获取数目标数进步做分析数系统通统计分析分析方式研究某时间段票房变化演员参演次数完备该系统

    35 数展示
    数展示原理数进行视化户方便清晰解该系统数变化系统数视化图表五种形式存分:表格词云图折线图柱状图玫瑰图分析结果中数概述结果表格形式显示票房占结果柱状图玫瑰图形式显示票房榜单结果词云图形式显示票房变化结果折线图形式显示演员劳模结果词云图柱状图形式显示

    四 系统设计

    系统详细设计阐述该系统实现较重功该章节利图文结合方式表述更加清晰更加方便读者解系统具体构造

    41文件结构图
    411前端demo文件结构图

    图41前端demo文件结构图
    1assets文件夹系统资源目录包括jscss图片赖库文件里面
    2page文件夹页面目录模块页面需localhost运行起开
    3indexhtml 根文件里面存放前端体代码采前端框架layui + jQuery+echarts

    412端爬虫系统文件结构图

    图42端爬虫系统文件结构图

    关爬取网站信息5文件:
    1 creat_dbpy文件功创建数库
    2 demopy文件功调数前端实现前端数交互
    3 fontpy文件功字体反爬破解
    4 get_datapy文件功爬取猫眼电影网站数
    5 font文件夹功字体配

    42前端功模块
    系统展示层页面相关解释:
    consolehtml控制台页面展示
    bangdanhtml:票房榜单页面分析时期里电影票房排行
    bianhuahtml票房变化页面分析电影类型2015年2019年票房走势
    datahtml数概括页面展示爬取电影数容
    laomohtml演员劳模页面分析时期里演员参演次数排名
    piaofanghtml票房占页面分析时期里电影类型票房
    loginhtml:户登录注册页户登录注册
    userinfohtml:户信息页面户修改信息
    tplmessagehtml:信息通知面板页面信息通知
    tplpasswordhtml:户密码修改页面户修改想密码
    tplthemehtml:题修改页面户修改系统页面题标签钮等操作
    indexhtml 首页展示操作相关视化界面
    html页面采layui+jQuery搭建体框架中视化数图表采Echarts图表库数挖掘整合非常友

    43登录注册
    登录注册页面户进行登录注册方登录页面中户够输入账号密码进行登录户第次访问没账号点击注册钮进行账号注册

    图43 登录流程图

    44数库表设计
    通利Python 抓取电影票房数容进行效清洗转换等操作保存接着做数表设计包括表中字段名称数类型数长度否键字段说明等表42示:
    表42电影films表
    字段名称
    数类型
    长度
    否键
    字段说明
    name
    varchar
    255

    电影名称
    time
    varchar
    255

    电影映时间
    type1
    varchar
    255

    电影类型
    type2
    varchar
    255

    电影类型
    type3
    varchar
    255

    电影类型
    type4
    varchar
    255

    电影类型
    type5
    varchar
    255

    电影类型
    country
    varchar
    255

    电影出品国家
    length
    varchar
    255

    电影长度
    year
    int
    0

    映时间(年份)
    month
    int
    0

    映时间(月份)
    day
    int
    0

    映时间(日期)
    director
    varchar
    255

    导演
    actor1
    varchar
    255

    演员
    actor2
    varchar
    255

    演员
    actor3
    varchar
    255

    演员
    actor4
    varchar
    255

    演员
    score
    varchar
    255

    电影分数
    people
    int
    0

    评分数
    box_office
    bigint
    0

    电影票房
    type
    varchar
    255

    电影类型总


    该系统数库films表films表中储存爬虫程序猫眼电影网站爬电影数中字段包括`name` `time` `type1` `type2` `type3` `type4` `type5` `country` `length` `year` `month` `day` `director` `actor1` `actor2` `actor3` `actor4` `score` `people` `box_office` `typename字段表示电影名称time字段表示电影映时间type15表示电影类型country表示电影出品国家length表示电影长度yearmonthday表示映时间score表示分数actor表示演员director表示导演people表示评分数box_office表示票房type表示电影类型总
    图44数库实体关系ER图作清晰展示出系该统中实体间关系

    图44数库ER模型图

    45数展示模块设计
    系统功模块猫眼电影信息数通构建种样图表模型户展示爬取票房数直观方便时方便非专业员该系统理解该系统五模块猫眼电影网爬取回电影数进行分析分数概述票房占票房榜单票房变化演员劳模五模块作研究分析模块示意图45示:


    图45数展示模块图

    (1)票房占模块:
    柱状图展现表达出猫眼评前电影中类型电影猫眼电影网票房高理解类型电影更受观众青睐玫瑰图展现表达出猫眼评前电影中类型电影占例
    (2) 票房榜单模块:
    词云图猫眼评前电影清单中票房突出电影名字放处理字号越更凸显部电影票房更高更受观众欢迎
    (3)数概述模块
    表格形式电影基信息展示出类似电影名字电影出品国际票房评分评分数等容电影基目然
    (4)票房变化模块:
    折线图展现表达出猫眼评前电影中类型电影2015年2019年段时间票房走势通选择电影类型直观该类型电影票房走势
    (5) 演员劳模模块:
    词云图猫眼评前电影清单中演员参演次数突出演员名字放处理字号越更凸显位演员参演次数更电影行业里更加投入柱状图展现较出猫眼评前电影中演员参演次数高低

    五 系统实现

    51解决网站反爬机制
    爬取猫眼电影网站电影详情数首先解决网站反爬机制然获权限访问网站数否爬取工作法进行爬取数绕网站反爬机制通研究该网站发现三机制:
    (1) 反爬机制:申请猫眼电影网服务器发送访问请求时该服务器会判断否户浏览器发请求中会判断识爬虫需绕该识需Python里添加头部信息文件headersheaders绕服务器判断识
    图51添加headers请求头
    (2) 反爬机制二:python进行爬虫时候猫眼电影网站会检测访问请求频繁时候服务器会阻止访问解决该困扰python里导入time方法通timesleep()降低访问请求频率模拟开页面查页面真实户操作避免猫眼电影网站阻止拒绝

    图52 timesleep()函数
    (3)反爬机制三:python进行爬虫时候动化采集数程果采集方式采集频率高者数量猫眼电影网反爬机制会监测正程序爬取数时候会出现滑动验证码滑动该验证码爬取务法继续进行破解滑动验证码反爬机制较挑战目前止笔者操作方式工手动滑动图片
    图53猫眼电影滑动验证码
    (4)反爬机制四:猫眼电影详情页谷歌浏览器开发员工具发现猫眼电影网会独特文字反爬机制致没法开发员工具里直接获取准确数字次刷新页面猫眼电影网页源代码里文字载链接会改变时候获取准确数字需找出字体规然做进步判断精准数字面动态字体反爬破解处理程:
    网页分析
    首先尝试猫眼电影详情页信息进行获取

    图54开发工具检查猫眼电影详情页
    通谷歌浏览器开发员工具发现猫眼电影网采文字反爬处理导致开发员工具里数框框谓乱码

    图55查猫眼电影网页源码
    谷歌浏览器查网页源码刷新页面发现图55三处编码会改变

    图56获取猫眼电影网页源代码文字编码url

    搜索关键字(stonefont)找图56里三 url 址址字体文件载( woff格式)
    二处理字体
    Font Creator工具 开载字体文件(maoyanwoff)

    图57 maoyanwoff字体应编码

    通图57数字编码输入Python里构成字典(面笔者载字体文件应编码)

    图58载字体文件应编码
    接着刷新页面获取载新字体文件然新字体文件保存 xml 文件


    图59 woff文件转xml格式代码


    接着开 xml 文件(图510)发现

    图510 xml文件编码象

    里 id 应数字准确前两编码处理时需掉该两编码




    图511单字体轮廓描写坐标

    图511字体轮廓描写坐标进行绘制需字体Font Creator工具开两字体文件Python开两字体文件xml数字分编码坐标进行会发现两字体间坐标没法应接工作里坐标法应字体象
    三编码映射

    图512 字体
    Font Creator软件开两woff字体文件仔细图512会发现字体间存着明显差异字体较时难出样方两字体字形者轮廓否接成判定两字体相似关键坐标越接字形越相似然然欧氏距离算法成该问题解决关键接展示欧氏距离算法程图513欧式距离算法公式

    图513 欧氏距离算法公式


    图514 欧氏距离算法
    四处理逻辑
    1首先载字体文件(base)作文件接着通 Font Creator 工具找base字体编码然python手写unicode数字应字典Python fontTools 库提取 base 中编码列表字体坐标列表
    2谷歌浏览器查网页网页源代码找新字体文件(new)载址载Python fontTools 库提取字体文件(new)编码列表字体坐标列表
    3采欧式距离算法字体文件(new)编码字体文件(base)编码进行计算算出中欧氏距离编码
    4手写编码字典算出欧氏距离编码找想字体
    四字体处理效果展示
    字体处理效果图515

    图515 字体处理效果

    52实现网络爬虫
    521找出url变化规获取url链接
    反爬虫机制处理完接需猫眼服务器返回数进行获取解析数通想文件类型保存开浏览器开发者工具猫眼电影网request请求GET爬取GET请求方式网页通常说POST请求方式方便
    首先爬取电影网页数时需获取电影详情页链接翻阅猫眼电影网url记录观察规
    url 'httpsmaoyancomfilmsshowType3&sortId3&yearId' + str(k+14) + '&offset' + str(i)
    通观察出该url规会发现循环传递参数ki次k+14i传递URL中断更新访问链接时采tryexcept异常处理语句先尝试访问该链接判断状态码(Status_Code)否200判断该请求否爬取(图516)
    图516尝试访问该url

    522解析获取网页数
    采BeautifulSoup库解析电影网页数前确保BeautifulSoup库安装状态输入相关代码检验否安装通该库提取电影相关数类似电影名评分数图517解析网页数源码图518中网页源代码
    图517解析猫眼电影网页数

    图518猫眼电影网页部分源码

    523数存储数库
    图520显示猫眼电影网页爬取数保存文件者数库里系统数结果写入MySQL数库中(图519)期需编辑数Navicat Premium 12工具修改


    图519 信息写入MySQL数库

    图520 Navicat Premium 12效果图

    53 登录注册模块实现
    该模块户进入该视化系统时进行登录者注册方户进入系统时会提醒户进行登录者注册操作户登录框输入账号密码进行登录



    图521 登录注册图

    54 数展示模块实现
    (1)数概况模块
    数概况通表格形式展示详细票房信息户够进行翻页查票房数跳转具体某页面(图522)

    图522数概括模块图
    (2)票房占模块
    票房占模块采柱状图玫瑰图形式户通选择年份月份该时期里电影类型间总票房中占例够直观展示电影类型票房间差异(图523)

    图523票房占模块图

    (3)票房榜单模块
    票房榜单采词云统计方式展示电影票房高低户通选择年份前数量够清晰时期里突出前电影具定新颖性容易吸引户眼球(图524)

    图524票房榜单模块图
    (4)票房变化模块
    票房变化模块采折线图形式户够选择电影类型清晰展示该类型电影2015年2019年间票房涨落信息方便户电影历史票房数进行研究(图525)

    图525票房变化模块图

    (6)演员劳模模块
    演员劳模模块采词云图柱状图形式户通选择年份月份清晰时期里演员热度情况参演次数(图526)
    图526演员劳模模块图

    六 票房网站信息数爬取结果分析

    系列爬虫工作效数存储数库清洗加工视化直观展示出数价值意义

    61 2019年票房榜单Top20例分析
    构建2019年票房榜单Top20词云图生成图图61示:

    图61 2019年票房榜单Top20词云图

    62 结果分析
    图612019年票房榜单Top20词云图例票房榜首吒魔皇降世图61中十分突出明显该影片映短短时间突破动漫电影票房记录吒魔皇降世成功功该影片创作团队努力导演该部影片亲力亲甚省钱学担动画动作指导参制作部影片数高达1600突破目前国产动画制作数记录国产动漫电影新里程碑时部电影传达价值观念深深引起广观众鸣努力众找光辉谓句命天
    面2015年2019年间电影票房例实现视化



    图62电影类型票房占总电影票房玫瑰图

    图62玫瑰图通统计2015年2019年里评分排行前电影列表中部电影类型票房占全部电影票房百分通玫瑰图62 票房排行前三分:动作险喜剧见观众动作片喜爱程度十分高更偏视觉带享受

    图63 总票房排名前20词云图
    图63词云图通统计2015年2019年里评分排行前电影清单中总票房里排名前20部电影做视觉突出图中清晰战狼2部电影票房高战狼2部电影成功方面素结果起决定作电影质量电影特效处理剧情握输莱坞片时该部电影军旅题材符合爱国旋律映时机恰逢建军90周年观众民族文化认感该部电影极鸣


    图64 2015年2019年总票房走势折线图

    图64折线图通统计2015年2019年里评分排行前电影清单中电影总票房段时期里走势图中清晰2018年总票房达顶峰2019年出现滑趋势分析2019年出现滑原三:1许热门电影2019年6月份暑期阶段宣布撤档原期影片映许观众没法影院进行观影院票房跌落十分明显2全国银幕数量增速放缓3热门头部电影撤档导致影院观影数幅度降加票房升许观众止步


    图65 演员劳模词云图
    图65词云图通统计2015年2019年里评分排行前电影清单中演员参演次数总演员参演次数里出现频率高演员劳模图中清晰道恩·强森位演员年参演次数高笔者认国外电影差演员努力程度年参演次数高道恩·强森参演次数高年录制影视没五部保证影片质量时高产见投入精力时间分配合理部作品坏演员作品投入程度离开演员付出起易作品剧样观众带更作品
    七 总结未展

    71总结
    电影发展越越迅速块红海市场中分杯羹成较具挑战性问题文基python爬虫制作爬取电影票房网站爬虫程序成功爬取电影票房数保存数库中进行分析通种操作电影票房更加透明清晰文基Python语言电影票房网站进行信息数爬取分析通利 Python 抓取电影票房数容数MYSQL 数库提取出进行效清洗MySQLpandas库等方式进行操作web前端网页数柱状图玫瑰图折线图词云图等方式展示众眼前数展示结果某时间段电影票房数进行分析进解众专注热点趋势进分析热点电影基情况
    该系统利Python丰富标准库快速开发特长错优点:(1)该爬取系统Python程序较陌生者熟悉说容易手需点击运行爬取程序里get_datapy文件爬取系统会动爬取数完成复杂爬取工作(2)采相似度距离算法方式破解猫眼电影网字体反爬亮点方法新颖(3)Python程序里导入time方法通10秒休眠时间程度降低访问请求页面频率服务器误操作避免猫眼电影网站阻止拒绝(4)爬虫程序里添加头部信息headers文件伪装web服务器辨浏览器行方便续爬取工作正常进行
    72 足点
    该系统笔者点足(1)该设计缺陷没线程没破解滑动验证码反爬机制导致爬取效率高适海量数爬取需进步完善(2)2020年疫情影响政府基娱乐场营活动暂停时包括电影院原计划春节档春节档映影片公司说意味着影片需全部断档停播影片公司行业言次巨击2020年初映电影寥寥次课题里2020年电影票房没法统计位(3)该系统户功模块部分没完全实现(4)整套系统功性够丰富
    该系统现阶段改进空间例爬取系统爬取效率系统性架构进步优化完善外前疫情影响许新电影票房数爬取
    希机会进步优化系统完善系统前台综合力该系统价值更加明显

    72未展
    关2020年电影行业三困境困扰着中国电影产业链难支撑困境疫情存传风险关系政府明确求线电影院纷纷停电影院电影说必少放映载体观众说更感身心愉悦娱乐空间影院关闭意味着没两方面资金入口难维持困境二原计划2020年映电影疫情关系没法映现数拍摄电影处堆压状态新电影排片安排更许影视公司说漫长等困境三投资方逐渐撤离电影行业投资剧组资金没法位拍摄方面技术物资力资源需求难维持致拍摄数量寥寥
    中份报纸提项网络投票关网友影院观电影法投票结果显示绝数网友线观电影消费需求原次新冠状病毒影响家树立强卫生安全防控意识群聚类娱乐活动少少产生抵触心理更网友表示宁愿家里观电影愿意风险心翼翼影院体验
    笔者认电影院线行业规许破计划院线发行影片逐渐转线发行传统谓窗口期会缩短流媒体台会量参票房收入源线院线会造成致命击终会电影线线格局带新变化
    2020年电影行业艰难笔者相信坎跨疫情期间见证太感动瞬间中国民团结心定会战胜疫情电影行业样会迎春天
    参考文献

    [1]方芳基Scrapy框架京东网站笔记电脑评数爬取分析[J]电脑知识技术202016(06)79
    [2]李玉香王孟玉涂宇晰基python网络爬虫技术研究[J]信息技术信息化2019(12)143145
    [3]李福荣贾志刚基Python校园贴吧数爬虫技术研究[J]技术市场201926(11)3435
    [4]成文莹李秀敏基Python电影数爬取数视化分析研究[J]电脑知识技术201915(31)810+12
    [5]殷丽凤张浩然基Python网招聘信息爬取分析[J]电子设计工程201927(20)2226
    [6]艾沛钰闫丽基python互联网数爬取解析研究实践[J]信息电脑(理版)201931(17)129130
    [7]王建黄宁香基Python微信公众号数挖掘分析[J]电子世界2019(11)1718+21
    [8]苗玥刘晓勇金佳妮李心基Python医学数爬取分析处理[J]信息技术信息化2019(04)5658
    [9]郭郑嘉慧苗学芹基Python聚焦型网络爬虫影评获取技术[J]时代金融2019(11)7172
    [10]孟亚茹姚凯学安世博基Python网络关键字热度获取工具研究实现[J]电子技术软件工程2018(17)181182
    [11]唐琳天宇基Python然语言数处理系统设计实现[J]电子技术软件工程2018(16)160162
    [12]肖乐丛天伟严卫基pythonWeb数采集数分析[J]电脑知识技术201814(22)911
    [13]刘熠 基pythonWeb数挖掘技术研究实现[D]长江学2018
    [14]方子菱匡芳君基Python网易民谣歌词数分析[J]电脑电信2018(04)5356









    文档香网(httpswwwxiangdangnet)户传

    《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
    该内容是文档的文本内容,更好的格式请下载文档

    下载文档到电脑,查找使用更方便

    文档的实际排版效果,会与网站的显示效果略有不同!!

    需要 120 香币 [ 分享文档获得香币 ]

    下载文档

    相关文档

    Python网络爬虫及数据可视化

    Python网络爬虫及数据可视化Python网络爬虫及数据可视化摘 要随着4G的全面普及,以及5G基站建设开展,带来互联网相关产业的高速发展,电子数据的爆发式增长。对于互联网公司来说,海量用...

    3年前   
    724    0

    基于Action的数据分析大数据平台

     基于Action的用户行为分析大数据平台Action-based user behavior analytics big data platform内容摘要电商平台作为当前最受欢迎,热度最...

    10个月前   
    242    0

    基于python的人脸识别系统

    随着科技的不断发展,人工智能在人类生活的应用越来越普及,作为当前最受关注的生物特征识别的方法,人脸识别在考勤、边检、安防、运输等领域有着巨大应用前景,是人工智能与计算机视觉领域的研究热点之一。

    3年前   
    2099    2

    基于微博的信息热度评价与预测分析

    微博已成为时下非常热门的社交媒体平台,是一个庞大的关于信息分享和话题交流的平台,在人们线上社交活动中发挥着不可替代的作用,由于网络信息鱼龙混杂,所以本文通过了解微博的热度机制进而研究

    4年前   
    1070    0

    基于信息流的流程协调分析

    基于信息流的流程协调分析 摘要:流程的描述和再设计是变化管理的主要内容。通常流程是用活动及其逻辑关系来定义的,流程变化相应地集中在活动关系的调整或管理活动依赖的协调机制的调整。针对协调理论存...

    12年前   
    7387    0

    基于LabVIEW的数据采集系统设计

    基于LabVIEW的数据采集系统设计--图像采集基于LabVIEW的数据采集系统设计 ——图像采集摘 要数字图像处理技术的应用越来越广泛,在国防建设、工农业生产、人们的日常生活中,都用到了数...

    2年前   
    668    0

    基于Python的代替密码破译方法的实现

    功能强大、易于使用的多媒体编辑软件在给人们的生活带来很多便利和乐趣的同时,也使得对数字图像和音视频进行恶意伪造篡改的情况时有发生。近年来,篡改过的数字图像已经从普通犯罪,慢慢向科研领域蔓延。本文...

    3年前   
    901    0

    基于python的爱车分享交流网站设计与开发

    基于python的爱车分享交流网站设计与开发网站系统摘 要设计开发该爱车分享交流网站系统主要是应用于有关汽车领域的网上社交,为用户提供信息化、数字化的分享交流平台,满足用户在此网站上发出对自...

    3年前   
    438    0

    基于Python的识别图片中文字的工具设计与实现

     基于Python的识别图片中...

    2年前   
    576    0

    Python讲义

     Python高效强大:它有非常完善的基础代码库(标准库,开源库,自定义模块),有庞大的外围库来支持。在科学计算、人工智能、大数据、云计算等诸多领域有着丰富的应用。 Python易学易读:它...

    4年前   
    1336    0

    分析数据的采集

    二、专利分析 (一)分析数据的采集 此次分析的数据来源于国家知识产权局专利局的“中国专利文献数据库”,检索于2004年1月8-9日进行。因此本分析是基于该数据库中2004年1月7日前收录的...

    11年前   
    6661    0

    数据分析

    表四: 数据分析部及KASP信息管理职数表 编制 部门 职 能 岗 位 工作描述 数据分析部(共7人) 1、建立公司数据信息管理平台 2、规划各部门数据分析报表 ...

    15年前   
    13008    0

    《观点报告》基于信息技术支持的中学语文学情分析

    《观点报告》基于信息技术支持的中学语文学情分析学情分析是教师应该具备的一项专业能力,主要表现为教师能在课堂教学中基于对具体学情的诊断而改进学生的学习。学情分析要分析学生的知识结构、技能水平、学...

    10个月前   
    171    0

    基于不对称信息博弈的4R分析—营销方案

     基于不对称信息博弈的4R分析—营销方案   摘 要 现代市场是个信息不对称市场,企业如何在不对称信息市场下营销是一个值得深入研究的课题。通过对不对称信息博弈的概述,指出企业和顾客、企业和企业...

    9年前   
    440    0

    基于《大数据时代》读后对医疗健康数据的思考

    基于《大数据时代》读后对医疗健康数据的思考 -                                                           --------** 这...

    7年前   
    2880    0

    社会管理综合信息平台数据分析报告

    **县社会管理综合信息平台2013年12月份数据分析报告  一、信息收集办理情况 12月份应报信息3255条,实报信息1396条,报送率42.89%。比上月下降20.5%。其中,平安信息...

    10年前   
    9421    0

    基于MYSQL的图书管理系统数据库设计

    题目:基于MYSQL图书管理系统数据库设计 目录1.题目概述 32.需求分析 32.1功能需求 32.2数据需求 42.3 数据安全与约束 42.4 数据流图 53.概要设计...

    3年前   
    737    0

    《信息获取的一般过程》教学设计

    在信息技术飞速发展的现代社会,信息素养已经成为人们必须具备的基本素质之一,信息技术也已经成为现代人们在社会生存与发展的一个基本条件与手段。人们利用信息技术获取信息,表达观点,与他人交流思想与合作。

    4年前   
    1218    0

    《大数据的分析》论文

         计算机系统结构(论文)题目   大数据的分析   院系 信息工程系 专业 计算机科学与技术   年级 ...

    2年前   
    566    0

    基于移动数据的大湾区城市经济联系强度分析设计与实现

    在现代,沿海城市的经济水平大部分都胜过内陆城市,所以为了促进经济文化的发展会将这一个或者多个海湾、港口和附近岛屿组成的一个区域作为一个整体,这种整体就叫大湾区。 如果将眼观放向全世界,那么这些最...

    3年前   
    630    0

    文档贡献者

    平***苏

    贡献于2021-11-20

    下载需要 120 香币 [香币充值 ]
    亲,您也可以通过 分享原创文档 来获得香币奖励!
    下载文档

    该用户的其他文档