MENU 服務 案例
網(wǎng)站建設-網(wǎng)站設計-北京網(wǎng)站建設-高端網(wǎng)站制作公司-尚品中國
我們通過擁抱變化創(chuàng)造
360°的品牌價值__
簡體
簡體中文 English

尚品與山東真諾智能設備有限公司簽署網(wǎng)站改版合作協(xié)議

類型:尚品動態(tài) 了解更多

大數(shù)據(jù)的挖掘“大”在哪里?

來源:曾劍平| 類型:網(wǎng)站百科| 時間:2017-12-11
  以前我們談論數(shù)據(jù)挖掘,而大數(shù)據(jù)時代我們談論大數(shù)據(jù)挖掘。那么大數(shù)據(jù)挖掘“大”在哪里? 本文對此進行了一些歸納,希望能提供一些思考問題的方法。
不足之處請留言發(fā)表意見。
 
一、數(shù)據(jù)量的大
       數(shù)據(jù)量大到多少? 這是一個很多人在進行大數(shù)據(jù)挖掘時要問的問題。
從一些實際應用看,一般每天處理的數(shù)據(jù)量達到T、P級別的,可以考慮部署Hadoop、Spark之類的大數(shù)據(jù)處理平臺,一定量級的數(shù)據(jù)處理才能突顯這些平臺的優(yōu)越性。
      數(shù)據(jù)量少,數(shù)據(jù)的讀取、搬遷所花費的時間占比太多,反而無法體現(xiàn)大數(shù)據(jù)處理平臺的優(yōu)勢。不少應用只是為了大數(shù)據(jù)而大數(shù)據(jù),幾百M也弄個Hadoop。因此,現(xiàn)在一談大數(shù)據(jù)就認為是Hadoop、Spark等平臺是很有局限性的。
      當然,實際在決定是否使用大數(shù)據(jù)平臺時,可能需要考慮更多的因素,例如:要集成很多的低性能機器、異構軟硬件平臺間的可移植性、大量的非結構化數(shù)據(jù)處理等。
 
二、數(shù)據(jù)類型的多樣化
      在數(shù)據(jù)挖掘時代,我們挖掘的數(shù)據(jù)主要以關系型數(shù)據(jù)為主。大數(shù)據(jù)時代,各種應用產(chǎn)生了各種數(shù)據(jù),通常在大數(shù)據(jù)挖掘中會涉及到多種數(shù)據(jù)類型。這里所說的數(shù)據(jù)類型不是程序設計中的普通數(shù)據(jù)類型,而是更接近于應用的數(shù)據(jù)表現(xiàn)形式,通常有時間序列數(shù)據(jù)、軌跡數(shù)據(jù)、圖數(shù)據(jù)、文本數(shù)據(jù)等等。
      每天的銷售記錄、價格是普通數(shù)據(jù)類型,但是從時間維度將它們按照順序連接起來,構成的時間序列數(shù)據(jù)能體現(xiàn)出價格的變化規(guī)律,理所當然具有更豐富的含義。
       每個人所處的位置不過是一個(x,y)的普通數(shù)據(jù)類型,但是按照移動的先后順序把位置連接起來,就構成了某人的活動軌跡,背后體現(xiàn)的是他的生活、習慣,這些隱藏信息才是大數(shù)據(jù)應當關注的。
       微博或論壇中每個人是獨立存在的,也是普通數(shù)據(jù),但是如果把每個人按照粉絲、關注等關系連接起來,就可以構成一張很大的圖,即圖數(shù)據(jù)。圖中的人群、離群,以及加上群體偏好、群體運動等屬性后的高等圖數(shù)據(jù),就是大數(shù)據(jù)挖掘的關注點。
 
三、數(shù)據(jù)處理的噪音
      在數(shù)據(jù)挖掘時代,數(shù)據(jù)來源于關系型數(shù)據(jù)庫,都是一些與業(yè)務相關、質量比較高的數(shù)據(jù),一般拿來就可以直接挖。大數(shù)據(jù)挖掘肯定就不是這樣,大數(shù)據(jù)思維決定了我們要考慮不同來源的數(shù)據(jù)的質量、數(shù)據(jù)結構魚龍混雜,以增強數(shù)據(jù)處理的魯棒性。比如,要進行企業(yè)級的客戶分析,不同的分公司可能使用不同的客戶管理系統(tǒng),有的系統(tǒng)采用本科/碩士/博士來區(qū)分客戶的學歷,而有的采用本科/研究生來區(qū)分,這就要求考慮數(shù)據(jù)的一致性處理。此外,數(shù)據(jù)格式、數(shù)據(jù)完整性等等都是大數(shù)據(jù)挖掘需要考慮的。
 
四、數(shù)據(jù)挖掘的多樣化
      在數(shù)據(jù)挖掘時代,一般側重于單項的數(shù)據(jù)分析,而大數(shù)據(jù)挖據(jù)可能會更側重于多項數(shù)據(jù)挖掘任務同時存在,如業(yè)務上同時要求分類、預測、相關性、聚類等。盡管業(yè)務需求多了,但是這些分類、預測、相關性、聚類可能在底層上采用的是同一種模型,因此,在大數(shù)據(jù)挖據(jù)時考慮模型、算法與業(yè)務的分離是非常重要的,即所謂的大數(shù)據(jù)處理層次結構。
來源聲明:本文章系尚品中國編輯原創(chuàng)或采編整理,如需轉載請注明來自尚品中國。以上內容部分(包含圖片、文字)來源于網(wǎng)絡,如有侵權,請及時與本站聯(lián)系(010-60259772)。
TAG標簽:

如果您的網(wǎng)站可以增加轉化次數(shù)并提高客戶滿意度,該怎么辦?

預約專業(yè)咨詢顧問溝通!

*尚品專業(yè)顧問將盡快與您聯(lián)系

免責聲明

非常感謝您訪問我們的網(wǎng)站。在您使用本網(wǎng)站之前,請您仔細閱讀本聲明的所有條款。

1、本站部分內容來源自網(wǎng)絡,涉及到的部分文章和圖片版權屬于原作者,本站轉載僅供大家學習和交流,切勿用于任何商業(yè)活動。

2、本站不承擔用戶因使用這些資源對自己和他人造成任何形式的損失或傷害。

3、本聲明未涉及的問題參見國家有關法律法規(guī),當本聲明與國家法律法規(guī)沖突時,以國家法律法規(guī)為準。

4、如果侵害了您的合法權益,請您及時與我們,我們會在第一時間刪除相關內容!

聯(lián)系方式:010-60259772
電子郵件:394588593@qq.com

現(xiàn)在就與專業(yè)咨詢顧問溝通!

  • 全國服務熱線

    400-700-4979

  • 北京服務熱線

    010-60259772

信息保護中請放心填寫
在線咨詢

免責聲明

非常感謝您訪問我們的網(wǎng)站。在您使用本網(wǎng)站之前,請您仔細閱讀本聲明的所有條款。

1、本站部分內容來源自網(wǎng)絡,涉及到的部分文章和圖片版權屬于原作者,本站轉載僅供大家學習和交流,切勿用于任何商業(yè)活動。

2、本站不承擔用戶因使用這些資源對自己和他人造成任何形式的損失或傷害。

3、本聲明未涉及的問題參見國家有關法律法規(guī),當本聲明與國家法律法規(guī)沖突時,以國家法律法規(guī)為準。

4、如果侵害了您的合法權益,請您及時與我們,我們會在第一時間刪除相關內容!

聯(lián)系方式:010-60259772
電子郵件:394588593@qq.com