目录
一、项目背景
二、数据准备
三、数据预处理及描述性统计
四、数据分析
1.聊天小时、日、月分别汇总分布图
2.聊天时间序列分布图
3.高频词汇统计
4.词云图展示
五、其它探索性分析
2021年2月20日我和我女朋友第一次见面,之后开启了我们两个人的故事,时隔一年我想将我们的聊天记录提取出来进行简单的数据分析一下。微信里面有2021年4月20日至2022年2月19日的聊天记录,一共十个月的数据。
在网上有许多文章关于可以找到关于如何将微信里面的聊天记录导出成CSV或者txt格式,大家可以去参考。以下就简单的写一下如何将微信的聊天记录提取出来的步骤:
1.用电脑版微信将手机微信聊天记录备份到电脑上
2.安装模拟器,将手机微信登录到模拟器的微信上(模拟器本身有root权限)
3.然后电脑版微信重新登录,恢复聊天记录到模拟器的微信里
4.模拟器安装RE文件管理器,在文件管理器找到指定文件夹 /data/data/com.tencent.mm/MicroMsg
5.在MicroMsg文件中找到EnMicroMsg.db复制到/mnt/shell/emulated/0/others中,现在访问windows的 C:Users你的用户名Nox_shareOtherShare 获取该数据库文件EnMicroMsg.db
6.找微信的uid,/data/data/com.tencent.mm/shared_prefs/ 找到文件auth_info_key_prefs.xml,找到default_uin后面的数字就是微信UID,模拟器里面可以直接看到IMEI
7.计算数据库查询密码,模拟器IMEI+微信UID在免费MD5在线计算得到的32位小写MD5的前七位就是密码
8.下载 sqlcipher 的软件,输入密码就可以打开 EnMicroMsg.db 数据库了
9.之后再软件上直接导出CSV或者txt格式就行啦
注意:数据库查询密码和微信的版本有关系,不同的坂本解码方法不一样,现在的最新版本 IMEI (手机序列号)为固定值为1234567890ABCDEF,大家可以都去试一下。
原始数据一共有22列,74019行,说明我们两在10个月的时间里面发了74018条消息,一共306天,平均每天发了241.89条消息,还处于热恋期,嘿嘿。本文用的python进行的数据分析,并附上代码。
1.要将时间戳转换为北京时间
2.处理图片和链接等非文字聊天记录
…
(74018, 4)
0 38269
1 35749
Name: isSend, dtype: int64
isSend中为1的是我发的消息,为0的是女朋友发的消息,结果统计一共74018条消息,我发了35749,女朋友发了38269条消息,我比女朋友少发了2520条消息,果真还是我输了。(手动哭哭表情包)
1.聊天小时、日、月分别汇总分布图

从图中我们可以看到聊天最多的时间段为22点到23点,达到了11%以上,一般晚上聊的比较多,其次就是早饭前后和午饭前后聊的也比较多。发现在0点以后还有些聊天记录,下次再分析的时候希望这部分的百分比降低,早睡才能变美哦。
类似的思想可以绘制出每月的聊天记录,因为图中4月只有10天,2月有19天聊天记录所以比例会小一点,8月和9月聊天记录最多,往后的聊天记录就有略有下降 。
类似的思想可以绘制每日汇总的柱线图,可以看到1号和16号的聊天记录较多,5号和19号的聊天记录较少,总体分布较均匀。
图中横坐标为星期几,可以看出分布较均匀,在周末略比工作日的聊天记录多一点。
2.聊天时间序列分布图
图中可以明显的看出聊天的数据量随时间的变化而变化,消息数量呈显波动的趋势。12月份左右数据量明显较少。表格中列出了数据量最多的5天和最少的5天,最多的一天是2021年8月28日,这一天刚好我我去武汉上学在火车上所以发的消息较多,发了804条。最少的是2021年7月22日这一天只发了4条聊天记录,查看了一下改天4条聊天记录都是我发的,那天确实是特殊情况,具体什么情况宝宝应该知道,一共306天每天都有聊天记录。
3.高频词汇统计
{'宝宝': 627, '晚安': 645, '吃饭': 907, '干嘛': 472, '嗯嗯': 2280, '喜欢': 730, '哈哈': 1674, '早安': 9, '爱': 821}
.......... 字符统计结束,用时: 0:27:56.019124 ............
可以将自己想要了解的词汇输入上去,然后就能得出一共发了多少条这样的词汇,本文中可以看到晚安一共有645条,一共大概300天的时间,可以看出几乎每天每个人都发了晚安。宝宝也有627次,聊吃饭的话题也挺多的哈,哈哈发了1674次,说明聊天的氛围还是蛮开心的,嘿嘿!
4.词云图展示
因为是和女朋友的聊天记录所以我采用了粉粉的心形作为词云的底层图案,似乎更加好看而且怀念呢。我们可以看到上面两幅图词云图都可以看出晚安、回来、吃饭、亲亲等词比较明显的出现在图上,看的越清晰说明改词出现的频率越高,在边上也有些关于工作,家庭,生活的话题,几乎覆盖了所有的聊天话题。
因为时间比较有限,除了本文的一些分析外还可以对数据进行预测建模,就是对女朋友的聊天记录的词汇进行预测,预测未来女朋友的一些聊天词汇或者说心情的变化。也可以借助机器学习或者人工智能的手段对数据进行挖掘,通过判断心情词汇,可以更好的知道如何回女朋友的消息才能让女朋友更开心。本文就到此结束了,欢迎大家继续往后面进行研究。
- 同为骁龙8Gen3,魅族和红米怎么选?红米3手机「同为骁龙8Gen3,魅族和红米怎么选?」
- Intel最新Kaby Lake系列CPU HD 630核显实测:挤挤牙膏还能再战N年!手机h游戏「Intel最新Kaby Lake系列CPU HD 630核显实测:挤挤牙膏还能再战N年!」
- 小米13贴什么手机膜比较好【详细介绍】手机原装膜好还是钢化膜好「小米13贴什么手机膜比较好【详细介绍】」
- 使用VMware安装linux虚拟机手机windows虚拟机「使用VMware安装linux虚拟机」
- 手机上使用油猴插件 Tampermonkey手机插件「手机上使用油猴插件 Tampermonkey」
- 手机上如何显示wifi密码手机查看wifi密码「手机上如何显示wifi密码」
- DxOMark年度总榜发布 华为P20 Pro/谷歌Pixel 3争冠dxomark手机拍照排名「DxOMark年度总榜发布 华为P20 Pro/谷歌Pixel 3争冠」
- vivo Y37 远山青 8GB+256GB 天玑6300八核 双卡5G 5000毫安大电池 15W闪充 1300万影像手机参数vivoy37手机价格「vivo Y37 远山青 8GB+256GB 天
- 1481政策红利“点燃”消费热情 咸宁市消费市场活力迸发
- 1422足球——U20亚洲杯决赛:澳大利亚队夺冠(2)
- 1373超美!玉林春日赏花攻略来啦
- 1364温和促排卵,让“试管婴儿”技术更安全
- 1345汇金系券商新格局 | 《财经》封面
- 1286AI换脸,积压剧回春?
- 1267梦幻西游:曲阜孔庙内战上演新剧情,美女玩家向天下帮讨薪?
- 1258人工智能生成内容,新规来了!
- 1229撑起安溪“半边天”!茶乡“玫瑰”有力量!