"目前计划搭建一个能处理 6000+TPS 的数据采集和分析系统,平均秒入库数据量大概 3000 条据(单条数据 4k),数据保留一周,主要业务是入库和集可数据报表查询,请问大牛我应该怎么搭建此业务系统。 1、需要采用什么技术、数据库、中间件。 2、保证业务可用,造价成本要求合理的情况下,需要什么物理 ...."
目前计划搭建一个能处理 6000+TPS 的数据采集和分析系统,平均秒入库数据量大概 3000 条据(单条数据 4k),数据保留一周,主要业务是入库和集可数据报表查询,请问大牛我应该怎么搭建此业务系统。
1、需要采用什么技术、数据库、中间件。
2、保证业务可用,造价成本要求合理的情况下,需要什么物理资源、什么配置服务器,数量几台?
推荐两个方案吧:
一个是目前比较传统的,成功案例也比较多的 Python 爬虫 +Flume+Kafka+Storm+HDFS 方案,个人感觉这个方案应该适用你的需求。单条 4K 的数据如果采用某款支持事务操作的关系型数据库(例如 MySQL),显然不现实。主要原因是重做日志(redo log)太大。
如果是舆情分析文本数据,通过 strom 完成初筛的数据可以直接放 HDFS,这个 I/O 吨吞吐量绝对符合你的要求。而且可以为下一步数据分析做好数据准备。如果你非要选择一款数据库,那么可以选择 HBase、Cassandra 等,但是建议 4K 的数据进行拆分和关联后存入。
这个方案还有一个有点,就是各种资料 Google 和百度都很好查询,基本上需要踩的坑都可以找到现成的方案。本人专题文章中,也有对 Flume 有详细的介绍。
另外一个方案是 ELK(ElasticSearch, Logstash, Kibana)
这套方案也是目前非常流行的数据采集、分析方案。这两套方案都应该符合你的业务要求,而且安装和运维工作上各有优劣。而且对于搜索引擎来说,建立文本内容的分词点刚好是它的强项。如果你的业务重点是数据分析 / 报表的实时性,那么可以考虑本方案。
推荐两个方案吧:
一个是目前比较传统的,成功案例也比较多的 Python 爬虫 +Flume+Kafka+Storm+HDFS 方案,个人感觉这个方案应该适用你的需求。单条 4K 的数据如果采用某款支持事务操作的关系型数据库(例如 MySQL),显然不现实。主要原因是重做日志(redo log)太大。
如果是舆情分析文本数据,通过 strom 完成初筛的数据可以直接放 HDFS,这个 I/O 吨吞吐量绝对符合你的要求。而且可以为下一步数据分析做好数据准备。如果你非要选择一款数据库,那么可以选择 HBase、Cassandra 等,但是建议 4K 的数据进行拆分和关联后存入。
这个方案还有一个有点,就是各种资料 Google 和百度都很好查询,基本上需要踩的坑都可以找到现成的方案。本人专题文章中,也有对 Flume 有详细的介绍。
另外一个方案是 ELK(ElasticSearch, Logstash, Kibana)
这套方案也是目前非常流行的数据采集、分析方案。这两套方案都应该符合你的业务要求,而且安装和运维工作上各有优劣。而且对于搜索引擎来说,建立文本内容的分词点刚好是它的强项。如果你的业务重点是数据分析 / 报表的实时性,那么可以考虑本方案。