国产精品免费播放久久_亚洲综合在线精品_AV在线影院亚洲第一_国产国拍亚洲精品无码电影

top_img.png

【技術(shù)】大數(shù)據(jù)審計(jì)——國家審計(jì)的未來之路(二):大數(shù)據(jù)——數(shù)據(jù)采集

發(fā)布時(shí)間:2017-01-18 瀏覽次數(shù):563

你采,或者不采,數(shù)據(jù)就在那里,閃閃發(fā)光。

數(shù)據(jù)資源被譽(yù)為21世紀(jì)最大的資源。就像當(dāng)年的淘金者一樣,無數(shù)探路者涌入大數(shù)據(jù)分析的滾滾浪潮。俗話說巧婦難為無米之炊,數(shù)據(jù)采集是開始數(shù)據(jù)分析的第一步。

數(shù)據(jù)按其來源可分為公開數(shù)據(jù)(如互聯(lián)網(wǎng)數(shù)據(jù))、半公開數(shù)據(jù)(如各類監(jiān)控?cái)?shù)據(jù))、內(nèi)部數(shù)據(jù)(如企業(yè)業(yè)務(wù)數(shù)據(jù)),相應(yīng)數(shù)據(jù)采集方式有網(wǎng)絡(luò)爬蟲、傳感器采集、從相關(guān)數(shù)據(jù)庫中摘取等。

眾所周知,互聯(lián)網(wǎng)上有大量的信息,如何高效的獲取這些信息當(dāng)然地成為了技術(shù)研究的熱點(diǎn)。爬蟲大概是智能搜索的形象化表述,開發(fā)者希望自己的程序能夠像昆蟲一樣聰明地嗅到需要的信息。網(wǎng)絡(luò)爬蟲技術(shù)在輿情分析等社會學(xué)研究中得到不錯(cuò)的應(yīng)用。

網(wǎng)絡(luò)爬蟲基本原理

傳感器網(wǎng)絡(luò)技術(shù)通常用于采集較分散數(shù)據(jù),如大城市的交通流量數(shù)據(jù)。城市公交的刷卡機(jī)可以看作是一臺獨(dú)立的傳感器,公交公司從上萬臺終端機(jī)中采集乘客出行數(shù)據(jù),用于市政部門分析城市交通流量,或幫助商家分析熱門商區(qū)。

傳感器網(wǎng)絡(luò)基本原理

數(shù)據(jù)庫摘取指從企業(yè)的信息系統(tǒng)的生產(chǎn)數(shù)據(jù)庫中直接提取數(shù)據(jù),如阿里巴巴分析網(wǎng)購客戶的購物傾向,又如銀行的征信系統(tǒng),通過用戶的信用卡消費(fèi)數(shù)據(jù)定義用戶的信用等級,作為判定貸款發(fā)放金額的依據(jù)。審計(jì)人員經(jīng)常遇到的數(shù)據(jù)庫有微軟SQL Server,ORACLE和DB2等,可以根據(jù)實(shí)際需要選擇不同的數(shù)據(jù)備份方式取得數(shù)據(jù),如備份規(guī)模較大的ORACLE數(shù)據(jù)時(shí),可以選擇數(shù)據(jù)泵方式,提高數(shù)據(jù)采集效率。此外,在采集過程中應(yīng)注意保留備份腳本等輔助信息,采集之后要及時(shí)恢復(fù)數(shù)據(jù)并校驗(yàn)數(shù)據(jù)質(zhì)量。

foot_img_01.png

主辦單位:大洼區(qū)人民政府 版權(quán)所有:盤錦市人民政府辦公室 網(wǎng)站地圖

網(wǎng)站標(biāo)識碼:2111210003 ICP備案序號:遼ICP備19013029號-1 遼公網(wǎng)安備 21112102000041號

聯(lián)系電話:0427-3530118

foot_img_02.png