在互聯網行業快速發展的今天,數據采集已經被廣泛應用于互聯網及分布式領域,數據采集領域已經發生了重要的變化。首先,分布式控制應用場合中的智能數據采集系統在國內外已經取得了長足的發展。其次,總線兼容型數據采集插件的數量不斷增大,與個人計算機兼容的數據采集系統的數量也在增加。國內外各種數據采集機先后問世,將數據采集帶入了一個全新的時代。大數據的主要來源分為以下幾類:商業數據、互聯網數據和傳感器數據。

大數據采集新的方法
?系統日志采集方法
很多互聯網企業都有自己的海量數據采集工具,多用于系統日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,這些工具均采用分布式架構,能滿足每秒數百MB的日志數據采集和傳輸需求。
?網絡數據采集方法
網絡數據采集是指通過網絡爬蟲或網站公開API等方式從網站上獲取數據信息。該方法可以將非結構化數據從網頁中抽取出來,將其存儲為統一的本地數據文件,并以結構化的方式存儲。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關聯。 除了網絡中包含的內容之外,對于網絡流量的采集可以使用DPI或DFI等帶寬管理技術進行處理。
?其他數據采集方法
對于企業生產經營數據或學科研究數據等保密性要求較高的數據,可以通過與企業或研究機構合作,使用特定系統接口等相關方式采集數據。