为什么百度大数据难预测《黄金时代》票房失灵？

网易科技佚名10-22 09:59

截止到10月16日，《黄金时代》的累计票房为4698万（已上映16天），如此成绩对于片方、媒体和公众而言都是出乎意料，毕竟满满的七天国庆黄金档是一个日产斗金的高产值档期，无论是汤唯还是冯绍峰都已是炙手可热的有极高票房号召力的大明星（《北京遇上西雅图》《后会无期》票房均超过5亿），此役失利堪称冷门。

但最令人哑然的恐怕还是影片上映前百度为其背书的票房预测，当时很多媒体还认为百度的预测太过保守。在百度百发的新闻发布会上，当宣布预测票房为2.0~2.3亿后，全场只有安静，毕竟对于这个为期七天的黄金档期对于拥有汤唯和冯绍峰的电影而言，只预计这个数字略显保守了——但如此谨慎的预测，在今天看来竟显得过于“乐观”。

其实百度很早就开始研究并在内部测试票房预测了，在今年7月18日爱奇艺影业宣布成立的新闻发布会上，爱奇艺首席内容官马东就曾透露，目前在爱奇艺内部，基于百度大数据的票房预测已经能够做到80%以上的准确率，未来将会在适当的时候对外发布票房预测。显然，针对《黄金时代》的百度百发（娱乐众筹产品）发布就成为了百度票房预测发布的适当时候，但只可惜出师未捷。

为什么中国最有能力做大数据预测的百度，竟会“意外”马失前蹄？记者为此采访了爱梦娱乐大数据创始人雷鸣、乐视影业数据及策略中心总监凌毅、凡影调研客户总监王舒及搜狗搜索事业部。

（注：搜狗搜索事业部——“深思”是搜狗搜索正在尝试做的一个社会化预测系统，据搜狗方面介绍，命名为“深思”，是希望在不同领域进行趋势预测，通过这个综合系统来发现隐藏在大数据背后的奥秘，而电影票房这一方向的预测是“深思”最先进行探索的领域。）

历史沉淀数据严重不足

雷鸣和王舒都认为，在国内做电影票房预测存在一个根本性的“疏漏”，就是中国电影市场的历史数据沉淀严重不足。我国有详细、清楚和准确的票房记录是从2012年开始。

当年2月，全国电影票务综合信息系统（简称新平台）上线。该平台共规划了信息速递、行业组织管理、影院管理、影片管理、票房数据接收、放映数据接收、监控管理、专资收缴管理、专资使用管理、查询统计、分析预测、GIS综合展示、安全认证、系统管理、SSL应用共15个模块，77项功能。从技术上才实现了能够准确统计全国的票房、场次、排片等影院端生成的数据。

在此之前，除了年底由国家电影专资办统计出具的权威票房数据外，其他每周、每月票房的数据多是由专业人士根据抽样样本的统计进行的估算。

雷鸣和王舒都提到了，好莱坞从1930年代前后即开始进行票房数据的调查、统计和披露。虎嗅君查到可能是好莱坞最早的票房数据调研公司之一的QUIGLEY出版公司（QUIGLEY PUBLISHING COMPANY, INC.），该公司创立于1915年。根据其官网介绍，该公司每年向公众出版《全球电影票房年鉴》（ Internationl Motion Picture Almanac），年鉴内包含电影公司的信息、当年出品电影片目、票房统计数字、获奖情况等电影行业的制片、发行及放映方面的统计资料。

由于包括QUIGLEY公司在内的第三方调研公司经年累月的数据统计，好莱坞能够在近百年的时间里积累了大量的历史统计数据，这些数据的沉淀并经过当代计算机数字技术的结构化才形成了如今好莱坞电影大数据预测的基础。

搜狗方面坦言，他们并未对《黄金时代》进行票房预测，问及百度的失利原因，他们认为，“就票房预测本身而言，这是一件很复杂困难的事情，所以预测不准确这件事情是很正常的。”搜狗方面也重点提到了关于历史数据不足量是目前做大数据预测的重要困难，“票房预测模型较为依赖历史数据，但通过历史数据积累学习比较难，（我国）有数据可查的片子数量也只有数百部，可用来学习规律的历史数据积累其实十分有限。”

雷鸣介绍，爱梦娱乐大数据为了弥补公开的票房数据资料不足，自己做了大量的“脏活、累活”，对2010年以来的国产影片单片的投资额、票房、演员阵容等进行了尽可能的资料发现和统计，并进行了标签化的整理，从而形成自己的具备一定沉淀量的结构化数据。

王舒还特别提到了，从2012年有详尽票房统计以来的统计数据并不足够有参考价值以作为票房预测的基础，因为中国电影产业自2012年以来连续地进入了一段爆发式的增长期，从百亿迅速跨越到了两百亿元，甚至今年有望冲击300亿元。

“稳定性是做趋势性预测的基础。”王舒认为，“高速增长是破坏性的，如果根据这样的数据进行预测，则必须做出实时的调整才能相对准确。”就王舒看来，只有等到中国电影的票房产值进入到一个稳定的平台期，电影的消费习惯趋于稳定，趋势性的预测才可能基于统计分析“准确”做出。

难以排除的数据“噪音”——“脏数据”

根据媒体对当时百度百发推出时的报道显示，“据百度大数据部产品规划负责人祖峥介绍，百度票房预测基于百度每日60亿次的搜索查询数据，1亿规模的微博数据以及10年电影行业数据，通过百度大数据引擎将数据进行整合、建模和清洗，输出针对特定电影的搜索指数、社交指数、演员指数、导演指数等，最终可以导出电影总票房预测和7日票房预测等数据。”

雷鸣认为，百度的搜索排名以及搜索结果导出的各类指数都会有大量的“结果”来自于片方及其宣传公司的购买，即非自然形成的人为推高——这在电影行业的宣传里司空见惯，当然也是百度的竞价排名等与搜索结果有关的收费服务所提供的“宣传空间”。

如果是这些“结果”，则本身由此就会存在大量的误导，这在雷鸣的描述里被称作统计上的“噪音”，亦被称作“脏数据”。雷鸣认为，不排除《黄金时代》存在这些“噪音”，而百度方面很有可能因为没有能够剥离这些“脏数据”，从而“被自己欺骗了”。

百度方面是否有能力清理这些“脏数据”以便让数据更真实，让基于这些数据的票房预测成为靠谱的趋势判断呢？

搜狗方面认为技术上应该是可以的，就搜狗的“深思”而言，“我们会用多个来源的数据互相校验，比如搜索数据、各个社交媒体的数据，也会有一些过滤策略，应该能够减少这些行为的影响。”搜狗方面也相信，“同为搜索引擎，百度在整合数据的过程中也会有相应的过滤策略。”

但如果这些“脏数据”成为构成指数的大部分甚至是绝大部分数据呢？特别是当一部偏小众、偏安静的文艺青年所期待的电影，他们本身对于这些数据的贡献有限甚至微弱的情况下，一旦洗干净了数据是否会存在可供分析或生成指数的数据也就所剩无几了呢？而这些失去统计价值的数据是否仍能作为票房预测的依据呢？

这种矛盾或许也是百度的票房预测模型和数学家们所困扰的吧。

预测模型还处在初级阶段：变量遗漏和样本偏差

关于百度预测模型，媒体公开的资料显示，“这一产品结合百度搜索数据、新浪微博数据，以及中国电影过去5年的历史票房数据，可以从演员热度、导演热度、电影关注度、上映时间等多个维度对一部电影进行票房预估。”

凌毅认为，仅从披露的信息看，模型内包含的数据维度并不足够多，“或许该模型还处在初级阶段。”凌毅提到了从媒体公布的资料看，特别是忽略了档期内其他竞争影片这一重要的参考维度。而据其分析，该片之所以会票房失利，与影片对国庆档期的错判，特别是该档期内观众的消费心理错判有很大的关系。凌毅介绍，乐视影业内部对于电影项目的数据决策模型中，基于同档期竞争影片的数据分析是十分重要的数据维度。

搜狗方面亦对此深为认同，“影响票房的未知因素多：导演、演员、剧本、宣传、首映时间、影片档期、同期竞争的影片、CPI、经济周期、天气情况、影院的排片率、上座率、票价、是否3D等等。此外，《黄金时代》与多部电影同步上映，互相影响。而很多数据都是基于单部电影，对多部电影相互影响的作用并不好分析预判。百度票房预测基于百度搜索数据、新浪微博数据，以及中国电影过去10年的历史票房数据，数据的来源和覆盖人群还是非常广的，只是如上所述，预测过程中充满了不确定性，特别是一些不可预期的变量会对预测结果产生比较大的影响，这点在部分电影中表现会比较明显，也是不可避免的。”

在王舒看来，变量遗漏和样本偏差是做统计性趋势分析的最大敌人。前者即是凌毅提到的问题，维度的不够丰富，不仅可能是因为疏漏而导致没有纳入到统计口径内，还可能是因为互联网内的数据目前仍然存在“门户”壁垒——无法打通一些关键的大数据，譬如说微博数据与微信数据打通，譬如百度的搜索引擎内沉淀的数据与腾讯在QQ、微信上沉淀的用户数据打通，譬如淘宝、京东、猫眼等电商或O2O平台内的数据之间打通，这些具有强关联性的数据目前还难以实现数据的分享，而这些数据不能打通，则任何一方对于“人”的消费行为描述、消费心理观察都必然会有相当程度的偏颇，变量遗漏也就在所难免了。

样本偏差指的是，“在没有严格遵循随机的原则时，所覆盖的样本越大反而会导致误差越大。”另外由于搜索只是一种表示兴趣的行为，如果仅以一小部分人的兴趣来推测全体的购票决策，准确度有限是难免的。

影院经理仍然是迄今为止最好的票房预测专家

雷鸣在介绍爱梦娱乐大数据的票房预测模型时，特别强调了行业情报对于票房预测的不可替代性。雷鸣认为只有基于对于行业的深刻理解，再加之以大数据才可能做出误差较小的票房预测。雷鸣方面在此次国庆档期的票房预测中，对《心花路放》《痞子英雄2》及《亲爱的》的预测基本准确，偏差较小，但也在《黄金时代》上出现了“较大失误”。

雷鸣告诉虎嗅君，“没想到影院经理这么快就彻底放弃了《黄金时代》”，经过复盘分析后，发现整个9月，全国票房大盘整体疲软，到了中下旬更是堪称萧条，每日大盘经常出现少于5000万甚至是两三千万的低迷状况——影院经理们“饥饿”了一整个月，在暑期档繁荣的背影下，九月几乎令人哀伤。正因为如此，影院经理对于《心花路放》的“暴饮暴食”也就顺理成章，此消彼长的情况下对于《黄金时代》的“容忍”期也就只有上映首日和次日，随后的排片量当然也就锐减——想想影院经理们的奖金、工资都指望着这七天呢。

这当然是行业情报的一部分，还包括对于同档期竞争影片的形势掌握，一个或许比《黄金时代》更典型的例子是《绝命逃亡》。

虎嗅暑期时与该片片方有过沟通，我们对该片选在国庆黄金档持保留意见，但片方方面显示出了特别的乐观，唯一认为能够形成竞争的对手就是《心花路放》——直到档期临近的最后一天，《绝命逃亡》似乎才看清了竞争形势，上演了一出绝命逃亡——撤档。

搜狗方面坦言：“由于未知因素比较多，且不可控，在计算过程中，很多因素无法量化或者引入进来。因此只能把握几个最主要的因素，尽可能控制影响，预测本身即存在局限性。”而这些未知因素，也正是大量基于人脑才能收集和判断的情报，无法数据化的进入数字化的计算范围。

王舒告诉虎嗅君，在她了解的范围内，他认为，迄今为止，影院经理仍然是能够做出最准确票房预测的专家。他们对于档期内的竞争情报和影片内容的了解最全面，他们对于服务的观众的消费行为、消费心理掌握最透彻，因此也最能够做出较小误差的票房预测——但只是针对所经营影院的各片成绩。如果有能力对影院经理们做逐一的统计，或是合理取样，可能比互联网平台的数据更接近观众。

票房预测没有意义，电影领域谈大数据尚言之过早

“大数据不实用。”王舒认为，“做这种预测，对于电影票房并没有直接的帮助。这是一个无法证伪，也无法证实的预测。”映前的票房预测如果预测高了，片方也不会就不作为，干等胜利成果，那么预测后所进行的努力就成了对于票房最终结果的助力，从而也就无法证实彼时的预测与此时的成绩之间是否可以称作是准确。反之亦然，预测低了，片方当然会尽最大努力调整营销策略，那无论最终准确与否都无法判断彼时预测的结果究竟对与否。因此，除了为影片增加噱头外，票房预测可以说没有价值。

凌毅告诉虎嗅君，乐视影业内部的数据及策略中心，会在电影的投资阶段，便参与到对项目的市场评估，帮助影片在制作上做调整。而在电影进入到发行阶段之后，更会基于对本体、档期、竞品等的数据分析，来制定相应的市场策略，包括通过对实施效果的实时监测，来修正和调整营销策略。凌毅强调，数据分析更像是一个工具，它能修正经验及主观意识的偏见，帮助片方在营销上少做错误的决策，但绝不是包治百病的万灵丹。

“目前，电影领域谈大数据，还有一点为时过早。”凌毅认为，电影行业仍然还是传统产业，从制造到消费都是线下完成，即便现在有电商介入购票环节，但是绝大部分的线下行为都无法数据化导入到线上，从而形成具有因果关联性的大数据沉淀。“包括在乐视影业内部，目前数据对我们最具意义的部分，其实在于它是一套培养良好思维习惯的工具，大数据的前景在将来。”

王舒与凌毅观点相似，他认为大数据尽管不同于过去强调因果关系的统计分析，但强调关联性的大数据并非无需因果，仍然需要有因果关系的数据导入——否则，全世界发生的事情都只要用“蝴蝶效应”来解释就足矣。

仅就电影行业的大数据而言，一方面需要较长时间的历史沉淀数据——王舒认为是十年后，另一方面需要有大量的第三方公司参与到行业中来，帮助打通各个阵营、领域、行业中“孤立”的数据，关联才是大数据中“大”的真正价值。因此，沉淀票房的历史数据以及与电影行业有关的其他数据才是当务之急，经年累月后，这些大数据能够产生巨大的分析价值——不止于票房预测。

电科技（www.diankeji.com）是一家专注于全球TMT行业的领先资讯媒体。

作为今日头条青云计划、百家号百+计划获得者，2019百度数码年度作者、百家号科技领域最具人气作者、2019搜狗科技文化作者、2021百家号季度影响力创作者，曾荣获2013搜狐最佳行业媒体人、2015中国新媒体创业大赛北京赛季军、 2015年度光芒体验大奖、2015中国新媒体创业大赛总决赛季军、2018百度动态年度实力红人等诸多大奖。

投稿、商务合作请联络微信公众号

声明：本站原创文章文字版权归电科技所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表电科技立场，图文版权归原作者所有。如有侵权，请联系我们删除。