mysql海量(G级)数据分析统计方案

wenson

浏览: 1041762 次
性别:
来自: 广州

最近访客更多访客>>

apex53

belllab

baimeng88

rubskin

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

数据库 mysql 海量数据分析统计

先说说目前现状：
开发语言为java，数据库为mysql，大部分主要的表使用的是innodb引擎，数据库总大小为13G，最大的表member表大小为2G(有接近1000万条记录)，另外有几个表的数据也都达到了几百万记录，甚至有1600多万记录的，不过这些表大小都只有几百MB，最大不超过1G，数据库已经运行了五年多，目前每天的数据增量大小在20MB左右；

需求：
1、查询统计每天每个年龄段的不同性别注册人数(如16-20岁的男会员注册数每天多少，女会员数多少，一共定义了8个年龄段)；查询统计每个地区的注册会员数；
2、查询统计每天每小时每个年龄段的注册人数(登录人数、登录次数)；
查询统计每天每小时每个种性别的注册人数(登录人数、登录次数)；
查询统计每天每小时每个地区的注册人数(登录人数、登录次数)；
3、查询统计各种类型游戏的喜好人数(分性别、年龄段、地区统计)；
4、以后还会有各种不同的查询统计

问题：
按照目前数据库的状况以及需求，采用什么查询分析方案比较好？要能方便快捷，延时尽可能小，可依不同查询统计条件做出方便快速的扩展，考虑成本关系每天统计一次也是可能。目前在考虑是否有必要上hadoop这样的数据分析平台?有在看hadoop+Impala，据说性能不错，查询很快。但我看很多用到这样的分布式数据分析平台都是TB级甚至PB级以上数据量的，我们这样用的话是否杀鸡用牛刀了？
当然直接用java+sql应该也是写出满足需求功能的查询统计来，只是延时性、扩展性及可重用性恐怕不太好。
在此请教各位看官回复看看有什么更好更合适的解决方案？

分享到：