|
九九信用 大象金服北京科技有限公司
| 聯(lián)系人:張
先生 (CEO) |
| 電 話:010-62648216 |
| 手 機(jī): |
 |
|
 |
|
| NLPIR語義系統(tǒng)智能挖掘文本數(shù)據(jù) |
隨著數(shù)據(jù)量的高速增長,數(shù)據(jù)的內(nèi)在價(jià)值日益受到關(guān)注。數(shù)據(jù)量激增已經(jīng)給各行各業(yè)帶來深刻影響。目前,網(wǎng)絡(luò)文本信息本質(zhì)并沒有隨時(shí)代的變化而變化,但其符號、載體和記錄復(fù)制方式正在發(fā)生翻天覆地變化;電子形式或網(wǎng)絡(luò)空間中的文本信息正在向綜合化方向發(fā)展,數(shù)字化、多媒體、可視化等正在成為文本信息記錄、保存和傳播的發(fā)展方向。面對這種形勢,社會科學(xué)的研究方法、研究內(nèi)容和學(xué)科疆界也在發(fā)生變化。在海量數(shù)據(jù)和信息面前,如果沒有數(shù)據(jù)管控,沒有數(shù)據(jù)和知識挖掘、發(fā)現(xiàn)、組織、導(dǎo)航、表達(dá)的科學(xué)化管理過程,數(shù)據(jù)分析人員就有可能迷失在數(shù)據(jù)和信息的汪洋大海中。
數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域涉及廣泛,主要包括數(shù)據(jù)庫系統(tǒng),基于知識的系統(tǒng),人工智能,機(jī)器學(xué)習(xí),知識獲取,統(tǒng)計(jì)學(xué),空間數(shù)據(jù)庫和數(shù)據(jù)可現(xiàn)化等領(lǐng)域。
(一)統(tǒng)計(jì)學(xué)
統(tǒng)計(jì)學(xué)在數(shù)據(jù)樣本選擇、數(shù)據(jù)預(yù)處理及評價(jià)抽取知識的步驟中有非常重要的作用。在數(shù)據(jù)預(yù)處理步驟中,統(tǒng)計(jì)學(xué)提出了估計(jì)噪聲參數(shù)過程中要用的平滑處理的技術(shù),在一定程度上對補(bǔ)足丟失數(shù)據(jù)有相當(dāng)?shù)淖饔。統(tǒng)計(jì)學(xué)對檢測數(shù)據(jù)分析、聚類和實(shí)驗(yàn)數(shù)據(jù)參數(shù)設(shè)計(jì)上也有用。統(tǒng)計(jì)學(xué)的工作大多是針對技術(shù)和模型的理論方面。于是許多工作是著眼于線性模型、遞增的高斯噪聲模型、參數(shù)估計(jì)和嚴(yán)格分類參數(shù)模型上。
(二)模式識別
在模式識別工作中,傳統(tǒng)上是把注意力集中在符號形式化直接結(jié)合實(shí)際技術(shù)的工作過程中。模式識別主要用于分類技術(shù)和數(shù)據(jù)的聚類技術(shù)上。模式識別中的分類和含義分析是對數(shù)據(jù)挖掘概念形成的開端。多數(shù)模式識別的算法和方法對降維、變換和設(shè)置都有直接的參考意義。在數(shù)據(jù)挖掘的步驟中,模式識別比統(tǒng)計(jì)學(xué)更為重要,因?yàn)樗鼜?qiáng)調(diào)了計(jì)算機(jī)算法、更加復(fù)雜的數(shù)據(jù)結(jié)構(gòu)和更多的搜索。典型的數(shù)據(jù)分類是用一定的分類技術(shù)把數(shù)據(jù)從一個(gè)向量空間映射到另外一個(gè)向量空間。
(三)人工智能
人工智能對于數(shù)據(jù)挖掘來說原來一直是在符號的層次上處理數(shù)據(jù),而對于連續(xù)變量注意較少。在機(jī)器學(xué)習(xí)和基于案例的推理中,分類和聚類算法著重于啟發(fā)式搜索和非參數(shù)模型。對于其結(jié)果,并不象模式識別和統(tǒng)計(jì)學(xué)在數(shù)學(xué)上的精確和要求嚴(yán)格分析。隨著計(jì)算機(jī)學(xué)習(xí)理論的發(fā)展。人工智能把注意力集中在了表達(dá)廣義分類的模糊邊緣上。機(jī)器學(xué)習(xí)主要是對數(shù)據(jù)挖掘過程中的數(shù)據(jù)變量選擇處理極有幫助,在通過大量搜索表達(dá)式和選擇變量上有很大作用。人工智能的其他技術(shù),包括知識獲取技術(shù)、知識搜索和知識表達(dá)在數(shù)據(jù)挖掘的數(shù)據(jù)變換、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理等步驟中都有作用。
(四)數(shù)據(jù)庫
數(shù)據(jù)庫及其相關(guān)技術(shù)顯然與數(shù)據(jù)挖掘有直接的關(guān)系。數(shù)據(jù)庫是原始數(shù)據(jù)的處理、儲存和操作的基礎(chǔ)。隨著平行和分布式數(shù)據(jù)庫的使用,對數(shù)據(jù) |
 |
| |
|
|
 |
|
|