`
wenson
  • 浏览: 1041762 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

mysql海量(G级)数据分析统计方案

阅读更多
先说说目前现状:
开发语言为java,数据库为mysql,大部分主要的表使用的是innodb引擎,数据库总大小为13G,最大的表member表大小为2G(有接近1000万条记录),另外有几个表的数据也都达到了几百万记录,甚至有1600多万记录的,不过这些表大小都只有几百MB,最大不超过1G,数据库已经运行了五年多,目前每天的数据增量大小在20MB左右;

需求:
1、查询统计每天每个年龄段的不同性别注册人数(如16-20岁的男会员注册数每天多少,女会员数多少,一共定义了8个年龄段);查询统计每个地区的注册会员数;
2、查询统计每天每小时每个年龄段的注册人数(登录人数、登录次数);
查询统计每天每小时每个种性别的注册人数(登录人数、登录次数);
查询统计每天每小时每个地区的注册人数(登录人数、登录次数);
3、查询统计各种类型游戏的喜好人数(分性别、年龄段、地区统计);
4、以后还会有各种不同的查询统计

问题:
按照目前数据库的状况以及需求,采用什么查询分析方案比较好?要能方便快捷,延时尽可能小,可依不同查询统计条件做出方便快速的扩展,考虑成本关系每天统计一次也是可能。目前在考虑是否有必要上hadoop这样的数据分析平台?有在看hadoop+Impala,据说性能不错,查询很快。但我看很多用到这样的分布式数据分析平台都是TB级甚至PB级以上数据量的,我们这样用的话是否杀鸡用牛刀了?
当然直接用java+sql应该也是写出满足需求功能的查询统计来,只是延时性、扩展性及可重用性恐怕不太好。
在此请教各位看官回复看看有什么更好更合适的解决方案?
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics