随着大数据技术体系的发展,越来越多的企业应用大数据技术支持其业务发展。数据采集作为大数据的起点,是企业主动获取数据的重要手段。数据收集的多样性和全面性直接影响数据质量。
获取企业数据的渠道分为内部渠道和外部渠道。内部渠道包括自建业务系统,如电子商务系统、门户网站、门户论坛等。外部渠道包括爬虫系统抓取的数据、三方合作平台数据、公共社交平台数据等。那么如何从这些渠道获取数据呢?下面简单介绍一下常用的数据采集工具。
结构化数据采集工具。
结构化数据在分析性原始数据中占有比较大的比重,大部分被预处理到数据仓库中进行进一步的多维分析和数据挖掘。常用的数据采集工具有:
1条阿帕奇水槽
支持离线和实时数据导入,是数据集成的主要工具。
2 Apache Sqoop
JDBC和其他工具用于连接关系数据库和Hadoop生态系统的文件系统。通过配置文件配置双向连接信息后,通过命令导入和导出数据。
半结构化数据采集工具
半结构化数据通常以日志格式出现。对于日志收集工具,常见的是
1 Logstash
Logstash和ElasticSearch、Kibana一起被称为ELK,是收集原木的黄金搭档。
2 Apache Flume也用于收集日志文本数据。
非结构化数据采集工具
1个数据x
x轻量级中间件,在关系数据库中有很好的导入导出性能。支持多种数据类型的导入和导出。
流式数据采集工具
1卡夫卡
卓越的性能和高吞吐量。
Binlog日志收集工具
1条运河
基于MySQL数据库的增量日志分析,提供增量日志订阅和消费功能。
爬虫收集框架和工具
1 Java stack,Nutch2,WebMagic等。
Python堆栈、Scrapy、PySpider
3第三方爬虫工具,八爪鱼,爬山虎,后羿等。