转载请注明出处:http://blog.csdn.net/l1028386804/article/details/79056976
一、场景描述
数据源准备工作详见博文《Python之——自动上传本地log文件到HDFS(基于Hadoop 2.5.2)》。
网站访问流量作为衡量一个站点的价值、热度的重要标准,另外,在CDN服务中心流量会涉及计费,如何快速准确分析当前站点的流量数据至关重要。本实例精确到分钟统计网站访问流量,原理是在mapper操作时将Web日志中小时的每分钟作为key,将对应的发送字节数作为value, 在reducer操作时对相同key做累加(sum)统计。
二、实现MapReduce
【/usr/local/python/source/httpflow.py】
三、生成MapReduce任务
运行如下命令:
此时打印的日志如下: 可以看出,打印出了结果,此时我们通过命令: 查看生成的结果文件: 然后我们通过命令 查看输出的结果如下: 可见输出了结果。 最后建议将分析结果数据定期入库MySQL,生成相应的数据报表。
以上就是本篇文章【Python之——网站访问流量统计】的全部内容了,欢迎阅览 ! 文章地址:http://yybeili.xhstdz.com/news/2320.html
栏目首页
相关文章
动态
同类文章
热门文章
网站地图
返回首页 物流园资讯移动站 http://yybeili.xhstdz.com/mobile/ , 查看更多