資料探勘中分類與聚類區別與關係,資料探勘中分類和聚類的區別

2021-03-19 18:18:51 字數 5054 閱讀 6601

1樓:呂秀才

分類是根據規則進行的,你把這個規則建立起來後還可以運用到其他尚未分類的資料,同時還可以根據新的已有類別資料修正分類規則,不斷提高其分類準確性

聚類是純粹的根據已有資料進行系統把資料聚類,有可能聚類出來的沒有實際意義,聚類也無法通過訓練資料和後期的資料不斷提高準確度的

資料探勘中分類和聚類的區別

2樓:day忘不掉的痛

你好,簡單地說,分類(categorization or classification)就是按照某種標準給物件貼標籤(label),再根據標籤來區分歸類。

簡單地說,聚類是指事先沒有「標籤」而通過某種成團分析找出事物之間存在聚集性原因的過程。

區別是,分類是事先定義好類別 ,類別數不變 。分類器需要由人工標註的分類訓練語料訓練得到,屬於有指導學習範疇。聚類則沒有事先預定的類別,類別數不確定。

聚類不需要人工標註和預先訓練分類器,類別在聚類過程中自動生成 。分類適合類別或分類體系已經確定的場合,比如按照國圖分類法分類圖書;聚類則適合不存在分類體系、類別數不確定的場合,一般作為某些應用的前端,比如多文件文摘、搜尋引擎結果後聚類(元搜尋)等。

分類的目的是學會一個分類函式或分類模型(也常常稱作分類器 ),該模型能把資料庫中的資料項對映到給定類別中的某一個類中。 要構造分類器,需要有一個訓練樣本資料集作為輸入。訓練集由一組資料庫記錄或元組構成,每個元組是一個由有關欄位(又稱屬性或特徵)值組成的特徵向量,此外,訓練樣本還有一個類別標記。

一個具體樣本的形式可表示為:(v1,v2,...,vn; c);其中vi表示欄位值,c表示類別。

分類器的構造方法有統計方法、機器學習方法、神經網路方法等等。

聚類(clustering)是指根據「物以類聚」原理,將本身沒有類別的樣本聚整合不同的組,這樣的一組資料物件的集合叫做簇,並且對每一個這樣的簇進行描述的過程。它的目的是使得屬於同一個簇的樣本之間應該彼此相似,而不同簇的樣本應該足夠不相似。與分類規則不同,進行聚類前並不知道將要劃分成幾個組和什麼樣的組,也不知道根據哪些空間區分規則來定義組。

其目的旨在發現空間實體的屬性間的函式關係,挖掘的知識用以屬性名為變數的數學方程來表示。聚類技術正在蓬勃發展,涉及範圍包括資料探勘、統計學、機器學習、空間資料庫技術、生物學以及市場營銷等領域,聚類分析已經成為資料探勘研究領域中一個非常活躍的研究課題。常見的聚類演算法包括:

k-均值聚類演算法、k-中心點聚類演算法、clarans、 birch、clique、dbscan等。

希望回答對您有幫助.

資料探勘中分類分析和聚類分析的區別

3樓:匿名使用者

分類有監督 聚類無監督 就這個區別

分類要靠學習 聚類要靠啟發式搜尋

4樓:匿名使用者

簡單的說,分類是一種有監督的學習,事先知道訓練樣本的標籤,通過挖掘將屬於不同類別標籤的樣本分開,可利用得到的分類模型,**樣本屬於哪個類別。而聚類是一種無監督的學習,事先不知道樣本的類別標籤,通過對相關屬性的分析,將具有類似屬性的樣本聚成一類。

5樓:匿名使用者

我覺得分類是已知有哪些型別。而聚類有時候可以發現我們所不熟知的類別,根據資料內部結構特徵,物以類聚,這個類別我們有時候是不知道的,甚至聚類後我們無法解釋。

這樣也導致分類採用監督分類,一般有訓練樣本(因為知道型別),而聚類多采用非監督的(因為不知道型別)

當然我們一般有時候聚類分析和分類分析沒有分得特別清楚。聚類分析和分類分析都是來進行分門別類,發現資料間的共性和個性。

個人看法,僅供參考

6樓:月拌西涼

個人覺得,分類分析 和 聚類分析,分別是之分析這兩種方法(分類和聚

類)的方法,比如分類分析的內容有分析在此樣本情況下能夠被分類的程度,並且依據此分析重新分佈資料,使得資料更容易被分析,相關技術有多類判別分析、主成分分析。聚類分析指類似的能夠衡量一個聚類方法的方法。小弟拙見,也是資料探勘初學者。

資料分類和聚類有什麼區別

7樓:匿名使用者

簡單地說,分類(categorization or classification)就是按照某種標準給物件貼標籤

(label),再根據標籤來區分歸類。

簡單地說,聚類是指事先沒有「標籤」而通過某種成團分析找出事物之間存在聚集性原因的過程。

區別是,分類是事先定義好類別 ,類別數不變 。分類器需要由人工標註的分類訓練語料訓練得到,屬於有指導學習範疇。聚類則沒有事先預定的類別,類別數不確定。

聚類不需要人工標註和預先訓練分類器,類別在聚類過程中自動生成 。分類適合類別或分類體系已經確定的場合,比如按照國圖分類法分類圖書;聚類則適合不存在分類體系、類別數不確定的場合,一般作為某些應用的前端,比如多文件文摘、搜尋引擎結果後聚類(元搜尋)等。

分類的目的是學會一個分類函式或分類模型(也常常稱作分類器 ),該模型能把資料庫中的資料項對映到給定類別中的某一個類中。 要構造分類器,需要有一個訓練樣本資料集作為輸入。訓練集由一組資料庫記錄或元組構成,每個元組是一個由有關欄位(又稱屬性或特徵)值組成的特徵向量,此外,訓練樣本還有一個類別標記。

一個具體樣本的形式可表示為:(v1,v2,...,vn; c);其中vi表示欄位值,c表示類別。

分類器的構造方法有統計方法、機器學習方法、神經網路方法等等。

聚類(clustering)是指根據「物以類聚」原理,將本身沒有類別的樣本聚整合不同的組,這樣的一組資料物件的集合叫做簇,並且對每一個這樣的簇進行描述的過程。它的目的是使得屬於同一個簇的樣本之間應該彼此相似,而不同簇的樣本應該足夠不相似。與分類規則不同,進行聚類前並不知道將要劃分成幾個組和什麼樣的組,也不知道根據哪些空間區分規則來定義組。

其目的旨在發現空間實體的屬性間的函式關係,挖掘的知識用以屬性名為變數的數學方程來表示。聚類技術正在蓬勃發展,涉及範圍包括資料探勘、統計學、機器學習、空間資料庫技術、生物學以及市場營銷等領域,聚類分析已經成為資料探勘研究領域中一個非常活躍的研究課題。常見的聚類演算法包括:

k-均值聚類演算法、k-中心點聚類演算法、clarans、 birch、clique、dbscan等。

8樓:溜到被人舔

分類是資料探勘中的一項非常重要的任務,利用分類技術可以從資料集中提取描述資料類的一個函式或模型(也常稱為分類器),並把資料集中的每個物件歸結到某個已知的物件類中。從機器學習的觀點,分類技術是一種有指導的學習,即每個訓練樣本的資料物件已經有類標識,通過學習可以形成表達資料物件與類標識間對應的知識。

9樓:匿名使用者

分類是指有監督的學習,即要分類的樣本是有標記的,類別是已知的;聚類是指無監督的學習,樣本沒有標記,根據某種相似度度量把樣本聚為k類。

10樓:jimmy馬輝

自動分類是指由計算機自動提取資訊的特徵項,依據一定的演算法,將資訊按內容或屬性歸到一個或多個類別的過程。包括分類聚類。自動分類需要確定一個後臺的分類表,根據既定的分類規則,將待分類文獻確定一個或多個類別。

自動聚類不需要事先定義好分類體系,完全依靠數學分析方法提取類目,並根據類目積聚相似的物件。相比較而言自動聚類比自動分類在技術上更容易實現。

11樓:紅色楓葉

聚類分析是在沒有給定劃分類別的情況下,根據資料相似度進行樣本分組的一種方法。與分類模型需要使用有類標記樣本構成的訓練資料不同,

12樓:匿名使用者

分類是向下細分,聚類是向上彙總。

13樓:匿名使用者

資料分類和聚類它是有區別的。

14樓:是的覅公司**

區別是,分類是事先定義好類別 ,類別數不變 。分類器需要由人工標註的分類訓練語料訓練得到,屬於有指導學習範疇。聚類則沒有事先預定的類別,類別數不確定。

聚類不需要人工標註和預先訓練分類器,類別在聚類過程中自動生成 。分類適合類別或分類體系已經確定的場合,比如按照國圖分類法分類圖書;聚類則適合不存在分類體系、類別數不確定的場合,一般作為某些應用的前端,比如多文件文摘、搜尋引擎結果後聚類(元搜尋)等。

分類的目的是學會一個分類函式或分類模型(也常常稱作分類器 ),該模型能把資料庫中的資料項對映到給定類別中的某一個類中。 要構造分類器,需要有一個訓練樣本資料集作為輸入。訓練集由一組資料庫記錄或元組構成,每個元組是一個由有關欄位(又稱屬性或特徵)值組成的特徵向量,此外,訓練樣本還有一個類別標記。

一個具體樣本的形式可表示為:(v1,v2,...,vn; c);其中vi表示欄位值,c表示類別。

分類器的構造方法有統計方法、機器學習方法、神經網路方法等等。

聚類(clustering)是指根據「物以類聚」原理,將本身沒有類別的樣本聚整合不同的組,這樣的一組資料物件的集合叫做簇,並且對每一個這樣的簇進行描述的過程。它的目的是使得屬於同一個簇的樣本之間應該彼此相似,而不同簇的樣本應該足夠不相似。與分類規則不同,進行聚類前並不知道將要劃分成幾個組和什麼樣的組,也不知道根據哪些空間區分規則來定義組。

其目的旨在發現空間實體的屬性間的函式關係,挖掘的知識用以屬性名為變數的數學方程來表示。聚類技術正在蓬勃發展,涉及範圍包括資料探勘、統計學、機器學習、空間資料庫技術、生物學以及市場營銷等領域,聚類分析已經成為資料探勘研究領域中一個非常活躍的研究課題。常見的聚類演算法包括:

k-均值聚類演算法、k-中心點聚類演算法、clarans、 birch、clique、dbscan等。

分類和聚類的區別及各自的常見演算法

15樓:安徽新華電腦專修學院

classification (分類),對於一

個classifier,通常需要你告訴它「這個東西被分為某某類」這樣一些例子,理想情況下,一個 classifier 會從它得到的訓練集中進行「學習」,從而具備對未知資料進行分類的能力,這種提供訓練資料的過程通常叫做supervised learning (監督學習),

clustering (聚類),簡單地說就是把相似的東西分到一組,聚類的時候,我們並不關心某一類是什麼,我們需要實現的目標只是把相似的東西聚到一起。因此,一個聚類演算法通常只需要知道如何計算相似度就可以開始工作了,因此 clustering 通常並不需要使用訓練資料進行學習,這在machine learning中被稱作unsupervised learning (無監督學習).

生物分類門綱目科屬種與類的區別

這是書面語和口語之間的分別,界門綱目科屬種 是學術上的標準用語,而人們平常說的 類 種 此種非彼種,例如 世界上有n種xx動物 則是長久以來的一種習慣性說法,把有著類似特徵的東西歸為一 類 或一 種 和學術上的分類也許會有一定差別 脊椎動物門 魚綱 兩棲綱 符合大眾口味而已 綱吧!習慣啦,很多都是習...

資料分析與數學分析的不同點,資料探勘與資料分析的區別是什麼?

資料分析是指用適當的統計分析方法對收集來的大量資料進行分析,提取有用資訊專和形成 屬結論而對資料加以詳細研究和概括總結的過程。資料分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操作成為可能,並使得資料分析得以推廣。資料分析是數學與電腦科學相結合的產物。數學分析,又稱高階微積分,分...

挖掘機正產與反剷的區別

說簡單點 挖掘機的正鏟適合裝卸作業,反剷適合挖掘作業!另外一點,正鏟挖掘機噸位很大,鬥容也很大 反剷的就相對噸位和鬥容上都小!挖掘機正鏟雨反剷指的是剷鬥,剷鬥的切削力向前的就是正鏟的,也就是像裝載機那樣的剷鬥形式是正鏟,反之剷鬥的切削力向後的就是反剷啦,顯而易見的是,我們日常見到的絕大多數挖掘機都是...