博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
从13万猫眼评论看看《流浪地球》到底怎么样
阅读量:5770 次
发布时间:2019-06-18

本文共 7275 字,大约阅读时间需要 24 分钟。

背景

最近几年猫眼电影越来越热门了,都差不多和豆瓣并驾齐驱了。今年的《流浪地球》这么火,通过爬取猫眼电影上网友对该片的评价如何。

爬取猫眼评论

找到评论网页地址

先打开猫眼官网找到《流浪地球》的介绍页面:

图片描述

虽然显示有112.4万人评分,但是页面只有热门短评,其他评论都去哪里了,手机明明是有的。

那么我们用chrome切换到手机页面:

  • 打开开发者工具
  • 开启手机浏览功能
  • 访问手机版地址:$from=canary#

图片描述

这时候我们就看到了所有的评论。

获取评论请求地址

在点击打开“查看全部330613条讨论”后,发现评论分为最热和最新两部分,最热数量有限,而最新则是未经过处理的,也正是我们需要的。通过search来查看下对应的请求:

图片描述

发现,在chrome 的网络展示中发现只有一个类型为document的请求包含了所需的信息。那么这部分的评论获取就需要解析网页了,我们再把屏幕上的评论往下拉,发现会自动加载更多的评论,对应的chrome网络请求多出来了两个comments.json的请求:

图片描述

果然这才是我们需要的!把初始页面的url和这两个json请求的url复制到一起比较一下:

http://m.maoyan.com/review/v2/comments.json?movieId=248906&userId=-1&offset=0&limit=15&ts=0&type=3http://m.maoyan.com/review/v2/comments.json?movieId=248906&userId=-1&offset=15&limit=15&ts=1549965527295&type=3http://m.maoyan.com/review/v2/comments.json?movieId=248906&userId=-1&offset=30&limit=15&ts=1549965527295&type=3

我们可以发现规律:

  • 初始页面的ts值为0,随后会有ts值,且保持不变。这里的ts是当前的时间戳,可以通过转换工具查看:

图片描述

  • offset是请求评论开始的序号,limit为请求的条数

再看返回的json结果:

  • data.comments中是评论的具体内容
  • paging中通过hasMore来告诉我们是否还有更多(判断是否继续抓取)

我们再尝试下将offset设置为0,也加上ts参数:

http://m.maoyan.com/review/v2/comments.json?movieId=248906&userId=-1&offset=0&limit=15&ts=1549965527295&type=3

发现也是可以获取数据的:

图片描述

那么通过offsetlimit来控制每次请求获取的数量。

我们还可以通过加大limit参数来尝试,是否可以一次性获取更多的评论:

http://m.maoyan.com/review/v2/comments.json?movieId=248906&userId=-1&offset=0&limit=30&ts=1549965527295&type=3

效果如下:

图片描述

再增加limit的值,会发现评论数回到了15条,可见猫眼系统仅支持每次最多获取30条。

构造请求url 方法一

根据上面的分析,我们构造请求的url就很明确了:

  • offset=0&limit=30开始
  • 通过返回的paging.hasMore来判断是否继续抓取
  • 下一个抓取的urloffset+=limit

只能抓取1000条?!

根据上述分析,在返回的json数据中是可以看到总评论数的,但是实际抓取的时候,在offset超过1000之后,返回的数据中hasMore就变成了false

于是尝试通过浏览器一直下拉刷新,到达offset超过1000的情况,发现页面会不停的发送请求,但也无法获取数据。

图片描述

那应该就是网站做了控制,不允许offset超过1000。

构造请求URL 方法二

那么就要考虑其他构造url的方法来抓取了。先观察下每个请求返回的信息:

图片描述

发现每个comment里都包含有一个time信息,把time做一下处理:

2019-02-13 13:38:00##感觉韩朵朵这个人设是多余的2019-02-13 13:38:00##真的感动 非常棒2019-02-13 13:38:00##这电影大陆的起航2019-02-13 13:38:00##不怎么样,剧情挺感人,但是有点尴尬2019-02-13 13:37:00##好看。。。。。。。。。。2019-02-13 13:37:00##超级超级超级超级超级超级超级好看2019-02-13 13:37:00##太牛逼了,中国科幻片可有一部能看的了。支持吴京2019-02-13 13:36:00##不错!中国科幻的希望2019-02-13 13:36:00##中国里程碑式的科幻电影。2019-02-13 13:36:00##什么垃圾座位没人管的么乱坐的

可以发现后台是按照时间顺序的,每分钟一个间隔,那么就可以考虑根据每次返回comment中的时间来更新url中的ts即可。

由于不确定每次请求返回的数据中包含了多长的时间段,且返回的第一个评论时间戳与第二个评论是不同的,所以抓取思路如下:

  • 获取请求数据
  • 记录第一个时间戳
  • 记录第二个时间戳
  • 当遇到第三个时间戳时,将ts设置为第二个时间戳,重新构造url
  • 如果单次抓取中每遇到第三个时间戳,则通过修改offset来继续抓取,直到遇到第三个时间戳

抓取实现

根据上面思路,实现相对就比较简单了:

  • 生成url

    def get_url():    global offset    url = 'http://m.maoyan.com/review/v2/comments.json?movieId=' + movieId + '&userId=-1&offset=' + str(        offset) + '&limit=' + str(limit) + '&ts=' + str(ts) + '&type=3'    return url
  • 访问url

    def open_url(url):    global ua    try:        headers = {'User-Agent': ua.random}        response = requests.get(url, headers=headers)        if response.status_code == 200:            return response.text        else:            return None    except Exception as e:        print(e)        return None
  • 数据处理:将评论保存并判断是否要继续抓取

    def parse_json(data):    global count    global offset    global limit    global ts    ts_duration = ts    res = json.loads(data)    comments = res['data']['comments']    for comment in comments:        comment_time = comment['time']        if ts == 0:            ts = comment_time            ts_duration = comment_time        if comment_time != ts and ts == ts_duration:            ts_duration = comment_time        if comment_time !=ts_duration:            ts = ts_duration            offset = 0            return get_url()        else:            content = comment['content'].strip().replace('\n', '。')            print('get comment ' + str(count))            count += 1            write_txt(time.strftime("%Y-%m-%d %H:%M:%S",time.localtime(comment_time/1000)) + '##' + content + '\n')    if res['paging']['hasMore']:        offset += limit        return get_url()    else:        return None

最后一共抓取评论131106条,足够做各种分析了

2019-02-13 18:13:11,625 - get_comments.py[line:78] - INFO: get comment 1311042019-02-13 18:13:11,729 - get_comments.py[line:78] - INFO: get comment 1311052019-02-13 18:13:11,827 - get_comments.py[line:78] - INFO: get comment 1311062019-02-13 18:13:15,416 - get_comments.py[line:98] - INFO: end

数据分析

按日期汇总分析热度

前面我们再抓取时,将评论的时间和内容通过csv的格式保存下来,并使用;分割。读取csv文件并统计处理就要用到大名鼎鼎的pandas了。

  • 读取数据

    pandas提供read_csv方法来直接独处数据保存为DateFrame格式。

    df = pd.read_csv('comment.csv', sep=';', header=None)
  • 设置数据列名

    由于我们知道数据有两列,先通过这只列名可以方便后续引用。

    df.columns = ['date', 'comment']
  • 时间日期处理

    date列,我们保存的数据格式是string,需要把转换为日期格式才能进一步处理。

    df['date'] = pd.to_datetime(df['date'])

    我们需要按时间来统计,所以把date列设置为index:

    df = df.set_index('date')
  • 日期筛选

    由于我们知道《流浪地球》是2月5日上映的,我们可以对日期进行限定,以免出现有些在上映前的评论,会占用大段的空白情况。

    设置index之后,可以参考list类型操作,由于时间是倒序的,所以可以直接使用[:'2019-02-04']来选取2月4日之后到今天的所有数据。pandas在数据筛选方面相当智能,按照datetime的格式直接筛选即可。

    cacu_df = df[:'2019-02-04']
  • 按日期进行数量统计

    pandas中,通过resample方法进行重新采样,通过传入rule参数就可以按需要的频率获取数据,获得一个resampler对象。

    DataFrame.resample(rule, how=None, axis=0, fill_method=None, closed=None, label=None, convention='start', kind=None, loffset=None, limit=None, base=0, on=None, level=None)

    resampler对象提供了很多的统计方法,比如汇总求和可使用Resampler.count()

    # 按日统计数量cacu = cacu_df.resample('D').count()

    这样就完成了按日期求和统计操作。

  • 绘图

    画图需要使用matplotlib库,通过导入该库,可直接对DateFrame对象进行画图处理。画图及图表格式化如下:

    # 设置中文字体font = FontProperties(fname='/System/Library/Fonts/PingFang.ttc')plt.plot(cacu)plt.title("流浪地球评论分析", fontproperties=font)plt.xlabel("日期", fontproperties=font)plt.ylabel("评论数", fontproperties=font)plt.axis("tight")# 显示网格plt.grid(True)# 自动旋转横轴日期plt.gcf().autofmt_xdate()# 显示数值for a, b in zip(cacu.index, cacu.values):plt.text(a, b, str(b[0]))# 保存图片plt.savefig('comment_analysis.png')# 查看图片plt.show()
  • 分析结果

    结果如下:

    图片描述

    可见从上映之后,关注度直线飙升,到2月10日之后(上映5天),大家关注度逐渐下降。其中2月14日为情人节,大家的关注又有了小幅的上升。也许很多人在这天通过看《流浪地球》过节吧。

制作评论热点图云

  • 数据清洗

    首先由于评论是用户发表的,可能什么字符都会有,要先把一些特殊符号去掉,这里就用到了正则替换:

    msg = re.sub("[\s+\.\!\/_,$%^*()+\"\'\?]+|[+——!,。?、~@#¥%……&*()【】;:]+|\[.+\]|\[.+\]", "", line)
  • 分词与标签

    清洗后的数据,可以使用jieba分词包来进行分词,并把所有的分词保存在一个list中,然后计算出每个分词出现的次数。

    # 分词tags = jieba.analyse.extract_tags(msg)for t in tags:    word_list.append(t)# 计算词频for word in word_list:    if word not in word_dict:        word_dict[word] = 1    else:        word_dict[word] += 1
  • 生成词云

    使用wordcloud包,就可以很方便的生成词云图片了。

    先新建一个WordCloud对象,进行配置,然后利用前面的分词词频就可以生成对应的图片了。

    # 计算图片颜色alice_coloring = np.array(img)my_wordcloud = WordCloud(background_color="white",                             max_words=500, mask=alice_coloring,                             max_font_size=200, random_state=42,                             font_path=(os.path.join(d, "font/msyh.ttf")))                             my_wordcloud = my_wordcloud.generate_from_frequencies(wordList)

    这里需要注意的是:

    • mask=alice_coloring:这里通过numpy将图片矩阵化,来获取图片的颜色作为WordCloudmask,是为了最后生成的图云不仅外形与我们输入的图片保持一致,而且整体颜色也保持一致。
    • 输入的原图,背景色需要设置为白色而不是透明色,否则会全屏幕都是字。。。
    • 对于中文的词云,需要制定中文的字体,这里用的是微软雅黑
  • 保存图片

    最后使用matplotlib.pyplot来保存图片,保存前要进行图片属性的一些设置。

    width = img.width/80height = img.height/80plt.figure(figsize=(width, height))plt.imshow(my_wordcloud.recolor(color_func=image_colors))plt.imshow(my_wordcloud)plt.axis("off")# 通过设置subplots_adjust来控制画面外边框plt.subplots_adjust(bottom=.01, top=.99, left=.01, right=.99)plt.savefig("jupiter_wordcloud_1.png")plt.show()

    这里需要注意的是: 建议根据原图片的长宽比例进行一定的缩小,以免生成的图片像素过大而产生报错。

    ValueError: Image size of 98400x46500 pixels is too large. It must be less than 2^16 in each direction.
  • 词云展示

    图片描述

    放一张原图,你能看的出来嘛,抠图技术有限O(∩_∩)O哈哈~

    图片描述

以上就是使用抓取的评论生成词云的大致思路,完成的实现代码请见:

如果有更好的方法,欢迎一起探讨。

转载地址:http://rzsux.baihongyu.com/

你可能感兴趣的文章
寻找liunx学习伙伴
查看>>
我的友情链接
查看>>
linux网络配置和域名解析
查看>>
JSP
查看>>
一天一种设计模式之十一-----外观模式
查看>>
每天一个linux命令(18):locate 命令
查看>>
如何在 Rancher 中统一管理容器日志
查看>>
Mysql安装
查看>>
企业多外线接入时如何设计线路优化和分流?
查看>>
附件3:eclipse memory analyze使用教程
查看>>
《51CTO博客2.0——活跃之星评选大赛》送的获奖书籍及个人感言
查看>>
oracle备份与恢复--rman
查看>>
近70万美国运通印度分公司客户个人详细信息遭泄露
查看>>
Memcached主主复制+Keepalived高可用群集
查看>>
Postfix邮件发送和接收实验
查看>>
根据发布压缩包中的目录备份服务器上的相应目录到备份目录
查看>>
在LNMP架构中搭建zabbix监控服务!!!
查看>>
进程锁进程池
查看>>
Nginx调度(反向代理)配置
查看>>
并发编程中的volatile-和锁实现共享变量的同步操作
查看>>