五大步驟幫你實(shí)現(xiàn)Hadoop價(jià)值最大化
企業(yè)在部署Hadoop時(shí)總會(huì)遇到一些問(wèn)題。例如,企業(yè)要在生產(chǎn)環(huán)境中使用Hadoop,但是很難找到熟悉Sqoop、Hive、Pig和MapReduce編程語(yǔ)言的開(kāi)發(fā)人員。為了使大數(shù)據(jù)項(xiàng)目中Hadoop的價(jià)值最大化,企業(yè)需要重視一些關(guān)鍵步驟。
你可能準(zhǔn)備在公司啟動(dòng)一個(gè)大數(shù)據(jù)項(xiàng)目,但是你對(duì)Hadoop并不熟悉,并且不確定這樣的項(xiàng)目是否可以帶來(lái)價(jià)值。別著急,許多企業(yè)都會(huì)遇到類(lèi)似的問(wèn)題。在SAS公司與國(guó)際研究所攜手發(fā)布的《企業(yè)應(yīng)用Hadoop現(xiàn)狀》報(bào)告中,提出了可以幫助企業(yè)發(fā)揮Hadoop大數(shù)據(jù)項(xiàng)目最大價(jià)值的五個(gè)步驟:
1.識(shí)別和定義可提供競(jìng)爭(zhēng)優(yōu)勢(shì)和戰(zhàn)略的用例
首先要選擇目標(biāo)。假設(shè)你想研究客戶(hù)行為,應(yīng)該關(guān)注新的數(shù)據(jù)類(lèi)型,而不是研究其它項(xiàng)目,比如企業(yè)數(shù)據(jù)倉(cāng)庫(kù);假設(shè)你想獲取用戶(hù)在線行為信息,應(yīng)該分析點(diǎn)擊量數(shù)據(jù);假設(shè)你想了解客戶(hù)對(duì)公司品牌的看法,你需要分析社交媒體數(shù)據(jù)。
還要確保你的Hadoop項(xiàng)目擁有高知名度,并提供可度量?jī)r(jià)值。例如銷(xiāo)量提升或者很快擁有回頭客戶(hù)。這將有助于證明你的項(xiàng)目有價(jià)值并為未來(lái)的新項(xiàng)目鋪路。
推薦一個(gè)幫助識(shí)別和定義用例的好方法:SAS商業(yè)分析現(xiàn)代評(píng)估(BAMA)服務(wù),該服務(wù)旨在幫助擴(kuò)大企業(yè)對(duì)分析的應(yīng)用。BAMA是完成IT和業(yè)務(wù)單元之間對(duì)話(huà)的一個(gè)工作組,雙方可以積極合作,共同面對(duì)分析流程方面的巨大挑戰(zhàn)。
2.評(píng)估Hadoop是否適用于現(xiàn)有數(shù)據(jù)和分析架構(gòu)
對(duì)于許多企業(yè)而言,商業(yè)智能和分析項(xiàng)目(如數(shù)據(jù)倉(cāng)庫(kù))已經(jīng)持續(xù)了幾十年。盡管Hadoop數(shù)據(jù)存儲(chǔ)成本可能遠(yuǎn)遠(yuǎn)低于數(shù)據(jù)倉(cāng)庫(kù),但是也不應(yīng)該廢棄數(shù)據(jù)倉(cāng)庫(kù)方面的投資轉(zhuǎn)而讓Hadoop承擔(dān)數(shù)據(jù)倉(cāng)庫(kù)的角色。雖然Hadoop是存儲(chǔ)傳感器數(shù)據(jù)的理想選擇,但它不擅長(zhǎng)實(shí)時(shí)處理少量數(shù)據(jù)。分析專(zhuān)家Tom Davenport表示,許多公司都在Hadoop集群中存儲(chǔ)大量新的數(shù)據(jù)類(lèi)型,然后把這些數(shù)據(jù)存儲(chǔ)到企業(yè)數(shù)據(jù)倉(cāng)庫(kù)來(lái)滿(mǎn)足產(chǎn)品應(yīng)用的需求。
假設(shè)你已經(jīng)完成評(píng)估,并考慮實(shí)施分析客戶(hù)行為的Hadoop項(xiàng)目,那么你需要評(píng)估支持行為分析的數(shù)據(jù)存儲(chǔ)在哪里。使用傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)點(diǎn)擊量數(shù)據(jù)可能使成本飛漲。Hadoop可以存儲(chǔ)大量數(shù)據(jù)而只消耗合理的成本,但仍然需要考慮其他的存儲(chǔ)方式。企業(yè)想要更好地理解客戶(hù)行為,需要強(qiáng)大的分析以便利用存儲(chǔ)在Hadoop集群中的客戶(hù)點(diǎn)擊流數(shù)據(jù)。
3.利用數(shù)據(jù)管理、數(shù)據(jù)發(fā)現(xiàn)和分析提供價(jià)值
一旦你決定了要在數(shù)量最大且移動(dòng)最快的數(shù)據(jù)項(xiàng)目中使用Hadoop,你需要工具管理、操作和分析數(shù)據(jù),并且保證使用的工具必須跟得上節(jié)奏。假設(shè)你將傳感器數(shù)據(jù)存儲(chǔ)在Hadoop中,你想從數(shù)據(jù)中得到哪些信息呢?只是擁有數(shù)據(jù)不會(huì)獲得太多信息,但是如果你可以把它與第三方數(shù)據(jù)關(guān)聯(lián),構(gòu)建基于分析的數(shù)據(jù)表,就可以獲得一些有價(jià)值的信息。如果涉及機(jī)械設(shè)備,帶來(lái)的衍生價(jià)值會(huì)更多。例如,分析師預(yù)測(cè)飛機(jī)可能發(fā)生的故障以便做好維修工作保證飛機(jī)的飛行,增加收入的同時(shí)也節(jié)約了成本。這種基本的收益對(duì)于項(xiàng)目的成功至關(guān)重要。
簡(jiǎn)化你的整體時(shí)間值將幫助你進(jìn)一步了解Hadoop的價(jià)值。不論數(shù)據(jù)存儲(chǔ)在Hadoop還是其它地方,首先要確保你可以根據(jù)需求盡快地訪問(wèn)并加載數(shù)據(jù)。在幾秒鐘之內(nèi)查詢(xún)數(shù)十億行數(shù)據(jù),并在Hadoop中進(jìn)行操作,無(wú)需把數(shù)據(jù)轉(zhuǎn)移到單獨(dú)的分析平臺(tái)。要確保分析流程自上向下的高效性,這是Hadoop實(shí)施交付價(jià)值的關(guān)鍵。
4.重新評(píng)估你的數(shù)據(jù)集成和數(shù)據(jù)管理需求
數(shù)據(jù)分析項(xiàng)目的結(jié)果可能用于商業(yè)戰(zhàn)略的決策。數(shù)據(jù)整合和管理也同樣重要,你需要了解數(shù)據(jù)的來(lái)源并保證數(shù)據(jù)的可靠性。數(shù)據(jù)管理可以領(lǐng)先技術(shù)一步實(shí)現(xiàn)人與程序的結(jié)合。我們應(yīng)該尋找像SAS這樣的技術(shù)合作伙伴,SAS在整合IT和業(yè)務(wù)部門(mén)方面有豐富經(jīng)驗(yàn),可以幫助企業(yè)制定數(shù)據(jù)標(biāo)準(zhǔn)以便適用您特定的企業(yè)文化。數(shù)據(jù)管理實(shí)踐會(huì)給你帶來(lái)更大的信心,數(shù)據(jù)分析帶來(lái)的價(jià)值也是顯而易見(jiàn)的。
5.盡早評(píng)估技能人才缺口并制定彌補(bǔ)空白的計(jì)劃
大數(shù)據(jù)仍然是相對(duì)較新的領(lǐng)域,有效管理項(xiàng)目所需的技巧少得可憐。生產(chǎn)環(huán)境中使用Hadoop需要有Sqoop、Hive、Pig和MapReduce等編程語(yǔ)言經(jīng)驗(yàn)。
你應(yīng)該結(jié)合企業(yè)需求和戰(zhàn)略,確定是否需要數(shù)據(jù)科學(xué)家以便使你的大數(shù)據(jù)項(xiàng)目更有意義。當(dāng)然傳統(tǒng)的業(yè)務(wù)分析師也許就能滿(mǎn)足需求。例如,就像包含在SAS數(shù)據(jù)加載機(jī)中的Hadoop工具那樣,使用直觀的界面,用戶(hù)就可以獲取、發(fā)現(xiàn)、轉(zhuǎn)換、清理、集成并交付數(shù)據(jù),無(wú)需Sqoop、Hive或者Pig方面的專(zhuān)家。但是如果你聘請(qǐng)了數(shù)據(jù)科學(xué)家,應(yīng)該讓他專(zhuān)注于建模等最擅長(zhǎng)的領(lǐng)域,而非編寫(xiě)MapReduce,這樣才能獲得最大的價(jià)值。最終,企業(yè)得到最好的結(jié)果就是牢固掌握了所需技能,并在Hadoop項(xiàng)目實(shí)施之前制定計(jì)劃來(lái)彌補(bǔ)技能欠缺。
End.