數(shù)據(jù)資產(chǎn)管理:數(shù)據(jù)發(fā)現(xiàn),發(fā)現(xiàn)什么,怎么發(fā)現(xiàn)?
可能有人會(huì)問,數(shù)據(jù)資產(chǎn)盤點(diǎn)都是人工在做,有沒有更智能的方法,能夠自動(dòng)盤點(diǎn)數(shù)據(jù),讓數(shù)據(jù)更容易查找和使用?
嗯,有的。它就是經(jīng)常配合BI工具(商業(yè)智能)一起使用的數(shù)據(jù)管理工具——數(shù)據(jù)發(fā)現(xiàn)。
01 數(shù)據(jù)資產(chǎn)發(fā)現(xiàn),是什么?
數(shù)據(jù)資產(chǎn)發(fā)現(xiàn)是一個(gè)可視化、智能化的數(shù)據(jù)管理工具,它的定位是使業(yè)務(wù)和技術(shù)人員能夠在需要時(shí)更容易找到、理解和使用他們想要的數(shù)據(jù)。
這個(gè)概念是不是似曾相識(shí)?是的,數(shù)據(jù)資產(chǎn)發(fā)現(xiàn)與數(shù)據(jù)資產(chǎn)目錄在定位上很相似,從本質(zhì)上講,數(shù)據(jù)資產(chǎn)發(fā)現(xiàn)就是一種更智能的數(shù)據(jù)資產(chǎn)目錄工具。如果我們將大數(shù)據(jù)比作石油的話,數(shù)據(jù)發(fā)現(xiàn)就是勘探、采集、處理和煉化石油的過程,它能夠更加自動(dòng)化的識(shí)別數(shù)據(jù)資產(chǎn),對(duì)數(shù)據(jù)進(jìn)行遷移、清洗、標(biāo)記、編目和可視化,從而最大化的釋放數(shù)據(jù)價(jià)值。
通常來講,數(shù)據(jù)資產(chǎn)發(fā)現(xiàn)具備如下能力:
1、多數(shù)據(jù)源連接
數(shù)據(jù)資產(chǎn)發(fā)現(xiàn)可以連接多個(gè)數(shù)據(jù)源,實(shí)現(xiàn)數(shù)據(jù)的可視化、集成和遷移。支持的數(shù)據(jù)源除了結(jié)構(gòu)化數(shù)據(jù),還能夠?qū)Ψ墙Y(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)的關(guān)鍵元數(shù)據(jù)進(jìn)行識(shí)別和采集。
2、元數(shù)據(jù)分析
對(duì)元數(shù)據(jù)信息進(jìn)行統(tǒng)計(jì)分析,可視化展示數(shù)據(jù)源的元數(shù)據(jù),包括數(shù)據(jù)表的大小、注釋、列數(shù)量、時(shí)間列數(shù)量、主鍵數(shù)量等信息,更細(xì)一步地,還統(tǒng)計(jì)了列級(jí)別的元數(shù)據(jù),包括列注釋、字段類型、列長(zhǎng)度、是否主鍵列等信息。
3、數(shù)據(jù)分類和編目
數(shù)據(jù)發(fā)現(xiàn)與數(shù)據(jù)分類密切相關(guān),通過自然語言處理、語義解析,根據(jù)數(shù)據(jù)的有用性、敏感性或安全性要求進(jìn)行識(shí)別、分類和編目,形成業(yè)務(wù)、技術(shù)多個(gè)視角能夠識(shí)別、查詢和瀏覽的數(shù)據(jù)資產(chǎn)目錄。
4、清理和準(zhǔn)備數(shù)據(jù)
有了數(shù)據(jù)目錄,用戶就可以輕松找到想要的數(shù)據(jù)。但是找到了數(shù)據(jù),不一定就意味著它能直接使用,因?yàn)檫@些數(shù)據(jù)往往還存在很多的質(zhì)量問題,必須要對(duì)這些數(shù)據(jù)作進(jìn)一步的清理。數(shù)據(jù)發(fā)現(xiàn)工具一般具備自助數(shù)據(jù)準(zhǔn)備和自動(dòng)進(jìn)行數(shù)據(jù)清理功能,提供有關(guān)值域范圍、異常值、錯(cuò)誤值和其他數(shù)據(jù)屬性和問題的檢查和處理,為數(shù)據(jù)共享和分析提供支撐。
5、數(shù)據(jù)探索
數(shù)據(jù)探索是幫助業(yè)務(wù)人員整合來自各種來源的數(shù)據(jù),以了解數(shù)據(jù)結(jié)構(gòu)并構(gòu)建交互式可視化來解釋該數(shù)據(jù)。在數(shù)據(jù)探索中,用戶通過使用人工智能技術(shù),來查看自各種來源的數(shù)據(jù),并嘗試從這些數(shù)據(jù)中提取重要或有意義的信息。數(shù)據(jù)發(fā)現(xiàn)工具使用熱圖、數(shù)據(jù)透視表、餅圖、條形圖和地理地圖等多種方法來幫助用戶從數(shù)據(jù)中獲得洞察力,從而實(shí)現(xiàn)業(yè)務(wù)目標(biāo)。
02 數(shù)據(jù)資產(chǎn)發(fā)現(xiàn),發(fā)現(xiàn)什么?
很多企業(yè)數(shù)據(jù)資產(chǎn)管理的最大痛點(diǎn)就是數(shù)據(jù)分散,企業(yè)不知道自己有哪些數(shù)據(jù)可用。企業(yè)數(shù)據(jù)大部分分散在不同的系統(tǒng)、不同的數(shù)據(jù)源和不同的設(shè)備中,識(shí)別、分類、處理和分析數(shù)據(jù),并從中獲得洞察力對(duì)任何企業(yè)都至關(guān)重要。
那么,數(shù)據(jù)發(fā)現(xiàn)到底能夠發(fā)現(xiàn)什么?
數(shù)據(jù)的位置:數(shù)據(jù)發(fā)現(xiàn)通過連接數(shù)據(jù)源、采集和分析元數(shù)據(jù),能夠識(shí)別企業(yè)有哪些數(shù)據(jù),并定位這些數(shù)據(jù)在哪里存放,誰可以訪問它。
數(shù)據(jù)的結(jié)構(gòu):數(shù)據(jù)發(fā)現(xiàn)可以自動(dòng)解析數(shù)據(jù)的結(jié)構(gòu),包括對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的的數(shù)據(jù)特征提取,通過統(tǒng)計(jì)模型對(duì)數(shù)據(jù)進(jìn)行分類。
數(shù)據(jù)的傳輸:數(shù)據(jù)發(fā)現(xiàn)捕獲數(shù)據(jù)的流向,了解傳輸哪些數(shù)據(jù)、如何傳輸以及通過哪些渠道傳輸。
敏感的數(shù)據(jù):數(shù)據(jù)發(fā)現(xiàn)通過內(nèi)置的數(shù)據(jù)口徑、標(biāo)準(zhǔn)和規(guī)則,可以自動(dòng)識(shí)別數(shù)據(jù)的技術(shù)屬性和業(yè)務(wù)屬性,可以快速對(duì)身份證號(hào)碼,姓名,地址,手機(jī)號(hào)、銀行賬號(hào)等敏感信息進(jìn)行識(shí)別、分類和跟蹤,方便評(píng)估安全或隱私風(fēng)險(xiǎn)并定義緩解策略。
數(shù)據(jù)的問題:數(shù)據(jù)發(fā)現(xiàn)通過數(shù)據(jù)質(zhì)量檢核,可以對(duì)數(shù)據(jù)集中的數(shù)據(jù)值域范圍、異常值、錯(cuò)誤值、重復(fù)數(shù)據(jù)等數(shù)據(jù)問題進(jìn)行稽核,快速發(fā)現(xiàn)數(shù)據(jù)集中的問題數(shù)據(jù),并執(zhí)行數(shù)據(jù)清理,以提高數(shù)據(jù)質(zhì)量。
數(shù)據(jù)的含義:數(shù)據(jù)發(fā)現(xiàn)通過豐富的圖表,通過可視化的方式展示數(shù)據(jù)資產(chǎn)地圖,直觀清晰的展現(xiàn)數(shù)據(jù)富含的意義、用途等,使得用戶可以快速的了解數(shù)據(jù),并從數(shù)據(jù)中獲得洞察力。
03 數(shù)據(jù)資產(chǎn)發(fā)現(xiàn),怎么發(fā)現(xiàn)?
當(dāng)下,數(shù)據(jù)資產(chǎn)發(fā)現(xiàn)主要有兩種形式:手動(dòng)發(fā)現(xiàn)和智能發(fā)現(xiàn)。
1、手動(dòng)數(shù)據(jù)發(fā)現(xiàn)
在過去 20 年里,在機(jī)器學(xué)習(xí)進(jìn)步之前,數(shù)據(jù)相關(guān)工作人員對(duì)數(shù)據(jù)的相關(guān)作業(yè),如:發(fā)現(xiàn)數(shù)據(jù)、采集數(shù)據(jù)、處理數(shù)據(jù)、分析數(shù)據(jù)等,大部分需要依靠人類的腦力和體力。簡(jiǎn)單地說,人們通過人為的方式,識(shí)別和記憶關(guān)于哪些數(shù)據(jù)可用,存儲(chǔ)在哪里,為什么需要,以及為最終用戶提供帶來什么價(jià)值。
后來,企業(yè)開始有意識(shí)的管理數(shù)據(jù),通過監(jiān)控元數(shù)據(jù)和數(shù)據(jù)血緣,發(fā)現(xiàn)并了解數(shù)據(jù)分類和流程。數(shù)據(jù)管理員,通常是具有復(fù)雜技術(shù)和知識(shí)的人才能勝任,負(fù)責(zé)企業(yè)數(shù)據(jù)資產(chǎn)的盤點(diǎn)和管理,基于一定業(yè)務(wù)規(guī)則對(duì)數(shù)據(jù)資產(chǎn)進(jìn)行分類和編目。在這一過程,數(shù)據(jù)管理員通過手動(dòng)的方式建立數(shù)據(jù)目錄、繪制數(shù)據(jù)地圖,以理解企業(yè)中的數(shù)據(jù)資產(chǎn)。而這一方式,一直沿用至今。
2、智能數(shù)據(jù)發(fā)現(xiàn)
大數(shù)據(jù)時(shí)代,數(shù)據(jù)呈爆炸式增長(zhǎng),且數(shù)據(jù)在企業(yè)業(yè)務(wù)發(fā)展的過程中,扮演的角色越來越重要。傳統(tǒng)手動(dòng)發(fā)現(xiàn)數(shù)據(jù)的方式,在應(yīng)對(duì)企業(yè)的數(shù)據(jù)管理和使用需求,以及大規(guī)模、多樣化的數(shù)據(jù)增長(zhǎng)情況下,顯得越來越吃力。因此,企業(yè)迫切需要一種更加自動(dòng)化、智能化的數(shù)據(jù)發(fā)現(xiàn)工具,來幫助企業(yè)從數(shù)據(jù)中獲得更深入的洞察力。
隨著技術(shù)的進(jìn)步,智能數(shù)據(jù)發(fā)現(xiàn)工具逐步成熟了起來。智能數(shù)據(jù)發(fā)現(xiàn)主要使用增強(qiáng)分析、自然語言處理、機(jī)器學(xué)習(xí)等人工智能技術(shù),對(duì)數(shù)據(jù)進(jìn)行定位、探查、清理、集成和可視化,來呈現(xiàn)和洞察數(shù)據(jù)價(jià)值。智能數(shù)據(jù)發(fā)現(xiàn)是一個(gè)飛躍,通過對(duì)可用數(shù)據(jù)源的整體理解和分析,在黑匣子中進(jìn)行一些處理并得出合理答案。
有了AI的加持,數(shù)據(jù)發(fā)現(xiàn)有了令人興奮的創(chuàng)新方向:
AI 技術(shù)可用于數(shù)據(jù)準(zhǔn)備,例如:標(biāo)準(zhǔn)化數(shù)據(jù)、處理缺失數(shù)據(jù)、字符串模式識(shí)別等。
算法可用于識(shí)別和關(guān)注相關(guān)變量組數(shù)據(jù)中的特定模式或異常值。
時(shí)間序列分析對(duì)模式識(shí)別、異常值檢測(cè)和表關(guān)系發(fā)現(xiàn)具有不同的需求和意義。
可以收集、分析專家用戶的行為數(shù)據(jù),并用于影響推薦的分析操作。
對(duì)此,也有一些專家認(rèn)為數(shù)據(jù)發(fā)現(xiàn)類似于數(shù)據(jù)挖掘,這是一些公司用來嘗試從大型數(shù)據(jù)集中提取可操作數(shù)據(jù)的過程。在某些方面,數(shù)據(jù)發(fā)現(xiàn)也可以通過與電子發(fā)現(xiàn)(e-discovery)的相似性來解釋;例如,在涉及法律領(lǐng)域的電子發(fā)現(xiàn)中,指定的 IT 專業(yè)人員從可能適用于案件相關(guān)的大型數(shù)據(jù)集中提取數(shù)據(jù),輔助辦案。數(shù)據(jù)發(fā)現(xiàn)采用了類似的方法——從大量數(shù)據(jù)中篩選出相關(guān)且可操作的數(shù)據(jù)項(xiàng)。
可能有人會(huì)問:有了智能數(shù)據(jù)發(fā)現(xiàn)還需要手動(dòng)數(shù)據(jù)發(fā)現(xiàn)嗎?
個(gè)人認(rèn)為,現(xiàn)階段大部分的數(shù)據(jù)發(fā)現(xiàn)還需要人工手動(dòng)干預(yù),而基于機(jī)器學(xué)習(xí)等人工智能技術(shù)的利用可以幫助改進(jìn)數(shù)據(jù)發(fā)現(xiàn)過程,例如自動(dòng)發(fā)現(xiàn)數(shù)據(jù)中的數(shù)據(jù)質(zhì)量問題、法規(guī)遵從性問題等,而數(shù)據(jù)結(jié)果還是需要人為決策。
04 數(shù)據(jù)資產(chǎn)發(fā)現(xiàn),解決哪些問題?
數(shù)據(jù)資產(chǎn)發(fā)現(xiàn)也叫自助式數(shù)據(jù)探查和分析,從定位上講,是服務(wù)于業(yè)務(wù)人員,幫助業(yè)務(wù)人員從數(shù)據(jù)中獲得有價(jià)值的信息,這些信息可幫助用戶在競(jìng)爭(zhēng)對(duì)手之前發(fā)現(xiàn)寶貴的機(jī)會(huì),而無需咨詢 IT 部門,使得數(shù)據(jù)分析和使用變得“平民化”??梢暬臄?shù)據(jù)呈現(xiàn),提高了數(shù)據(jù)的可操作性,讓業(yè)務(wù)人員能夠更快地找到答案。
數(shù)據(jù)發(fā)現(xiàn)為企業(yè)提供了一種易于理解、清洗和分析數(shù)據(jù)的友好方法,使用戶可以輕松深入研究變量并提出新的問題和見解。
1、識(shí)別數(shù)據(jù)應(yīng)用中的痛點(diǎn)
每個(gè)企業(yè)的數(shù)據(jù)管理和應(yīng)用都會(huì)有獨(dú)特的痛點(diǎn)和問題,例如自多個(gè)來源的大量數(shù)據(jù)、復(fù)雜的架構(gòu)、數(shù)據(jù)安全和法規(guī)遵從性等,所有這些都應(yīng)該得到解決和持續(xù)監(jiān)控。盡可能多地提前識(shí)別這些問題,可以幫助企業(yè)在問題升級(jí)之前解決問題并確保企業(yè)的數(shù)據(jù)保持安全。
2、使用多樣化的數(shù)據(jù)源
如果企業(yè)可以從多個(gè)來源收集和使用數(shù)據(jù),那就預(yù)示著企業(yè)可以從中獲得更加深入的見解。但是,值得注意的是,企業(yè)需要正確處理和使用數(shù)據(jù),確保數(shù)據(jù)完整性、數(shù)據(jù)質(zhì)量和個(gè)人隱私保護(hù)。數(shù)據(jù)發(fā)現(xiàn)有助于企業(yè)從不同數(shù)據(jù)源中收集、清理相關(guān)數(shù)據(jù),這些數(shù)據(jù)可以提供大量可操作的信息。
3、用企業(yè)的數(shù)據(jù)講故事
數(shù)據(jù)發(fā)現(xiàn)為業(yè)務(wù)用戶提供了自助式數(shù)據(jù)分析和探索的能力,以可視化的方式進(jìn)行數(shù)據(jù)呈現(xiàn),形成業(yè)務(wù)人員更容易理解的故事板。直觀、可視化的“數(shù)據(jù)故事板”可以幫助人們理解信息,以及從中得到有價(jià)值信息,幫助用戶進(jìn)行決策。例如:數(shù)據(jù)發(fā)現(xiàn)通過對(duì)企業(yè)多渠道中的客戶行為、交易和情緒數(shù)據(jù)的分析和評(píng)估,來獲取客戶的 360 度視圖,在客戶流失之前進(jìn)行預(yù)警,從而輔助決策人員作出應(yīng)對(duì)策略。
05 數(shù)據(jù)發(fā)現(xiàn)工具,怎么選?
在國(guó)外一個(gè)數(shù)據(jù)管理工具評(píng)價(jià)網(wǎng)站顯示,2022年 9個(gè)最流行的數(shù)據(jù)發(fā)現(xiàn)工具有:
JMP Statistical Discovery
Looker
Microsoft Power BI
Phocas
Qlik Sense
Spirion
Tableau
TIBCO Spotfire
Atlan
你有沒有發(fā)現(xiàn)以上數(shù)據(jù)發(fā)現(xiàn)工具其實(shí)側(cè)重點(diǎn)并不相同,有側(cè)重?cái)?shù)據(jù)管理的,也有側(cè)重?cái)?shù)據(jù)分析的。例如:JMP Statistical Discovery——SAS公司的數(shù)據(jù)管理產(chǎn)品,是側(cè)重跨數(shù)據(jù)源數(shù)據(jù)采集、自助數(shù)據(jù)準(zhǔn)備和自動(dòng)進(jìn)行數(shù)據(jù)清理。而Google Cloud的Looker,微軟的Power BI,以及Salesforce的Tableau則更側(cè)重自助式的數(shù)據(jù)可視化能力。
那么,一個(gè)數(shù)據(jù)發(fā)現(xiàn)工具到底都應(yīng)該包含哪些通用功能,企業(yè)選型應(yīng)重點(diǎn)關(guān)注哪些方面呢?通過對(duì)以上工具的研究,筆者發(fā)現(xiàn)一個(gè)完善的數(shù)據(jù)發(fā)現(xiàn)工具,需要具備以下功能:
數(shù)據(jù)源連接和元數(shù)據(jù)采集,包括:結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等數(shù)據(jù)源
元數(shù)據(jù)管理和數(shù)據(jù)血緣,識(shí)別和解析數(shù)據(jù)的位置、含義等
全文元數(shù)據(jù)搜索,幫助用戶快速定位和查找數(shù)據(jù)
敏感信息識(shí)別、分類和監(jiān)控,這對(duì)于滿足合規(guī)性要求非常重要
數(shù)據(jù)準(zhǔn)備和提高數(shù)據(jù)質(zhì)量的工具
機(jī)器學(xué)習(xí)能力,包括預(yù)測(cè)分析
內(nèi)存分析,實(shí)現(xiàn)更快的查詢響應(yīng)時(shí)間
數(shù)據(jù)分析和可視化(圖表、地圖、表格以及其他形式)
版本控制,確保數(shù)據(jù)的完整性并防止意外數(shù)據(jù)丟失
除了以上基本功能之外,在數(shù)據(jù)發(fā)現(xiàn)工具中首先要考慮的是數(shù)據(jù)治理,企業(yè)的數(shù)據(jù)環(huán)境中可能有上百套系統(tǒng),成千名用戶在創(chuàng)建數(shù)據(jù),企業(yè)必須確保這些數(shù)據(jù)能夠自動(dòng)化的集中式治理。
其次,數(shù)據(jù)安全和隱私也是需要重點(diǎn)關(guān)注的方面,數(shù)據(jù)發(fā)現(xiàn)平臺(tái)需要提供一定的安全機(jī)制,如:用戶認(rèn)證、訪問控制、數(shù)據(jù)脫敏、數(shù)據(jù)加密等,確保數(shù)據(jù)安全和合規(guī)使用。
(作者:石秀峰)