Clustering Data

Γενικές συζητήσεις για SQL και SQL Servers (RDBMS)

Συντονιστές: WebDev Moderators, Super-Moderators

Απάντηση
gxr
Δημοσιεύσεις: 3
Εγγραφή: 13 Σεπ 2005 15:20

Clustering Data

Δημοσίευση από gxr » 13 Σεπ 2005 15:32

Γεια σας!

Θα ήθελα να ρωτήσω αν κάποιος από εσάς γνωρίζει κάποια πράγματα για clustering data.

Οι ερωτήσεις μου είναι οι εξής:

1)Υπάρχουν κάποιοι καλοί αλγόριθμοι που κάνουν clustering (εκτός από τους κλασσικούς όπως κ-means,...)?

2)Γίνεται να κάνω clustering σε δεδομένα one-dimension?Υπάρχει κάποιος αλγόριθμος που να μετατρέπει τα δεδομένα αυτά σε n-dimensions?(εκτός από το multiscaling data)?

Σας ευχαριστώ πολύ!!!

Άβαταρ μέλους
beredim
Δημοσιεύσεις: 26
Εγγραφή: 28 Ιαν 2004 10:04

Clustering Data

Δημοσίευση από beredim » 14 Σεπ 2005 10:08

Διάβασε αυτό
http://www.elet.polimi.it/upload/matteu ... index.html
και ξαναέλα με τις απορίες σου...

gxr
Δημοσιεύσεις: 3
Εγγραφή: 13 Σεπ 2005 15:20

Clustering Data

Δημοσίευση από gxr » 14 Σεπ 2005 10:59

Σε ευχαριστώ πολύ!

Μήπως ξέρεις κάποιον αλγόριθμο "bisecting" k-means?Αν ναι,είναι καλύτερος απο τον k-means?

Ένα απο τα προβλήματα μου όμως παραμένει:είναι λογικό να κάνω σε one-dimension data clustering?Θα ήταν "σωστό" αν έπαιρνα τις αποστάσεις κάθε δεδομένου μου από όλα τα υπόλοιπα,τα έβαζα σε vectors κ κάθε vector το αντιστοιχούσα στο αντίστοιχο δεδομένο του?

Κ πάλι σε ευχαριστώ πολύ!

Καλή σου μέρα!!

Άβαταρ μέλους
beredim
Δημοσιεύσεις: 26
Εγγραφή: 28 Ιαν 2004 10:04

Clustering Data

Δημοσίευση από beredim » 14 Σεπ 2005 12:30

Έκανα λίγο googling και απ' ότι κατάλαβα ο bisecting k-means δουλεύει ως εξής:

1. Παίρνουμε τα δεδομένα.
2. Τρέχουμε k-means με k=2 και παίρνουμε δύο σετ δεδομένων.
3. Σε κάθε ένα από τα δύο σετ τρέχουμε πάλι k-means με k=2

Επαναλαμβάνουμε τα 2 και 3 μέχρι να δημιουργήσουμε όσα cluster θέλουμε....

Σε περιλήψεις εργασιών που πέταξε το google αναφέρεται ότι γενικά συμπεριφέρεται το ίδιο καλά και καμιά φορά λίγο καλύτερα και λίγο γρηγορότερα από τον κλασσικό k-means.

Γενικά το μειονέκτημα των k-means αλγορίθμων είναι ότι ενώ συγκλίνουν πάντα, το τελικό αποτέλεσμα είναι συνήθως κάποιο τοπικό και όχι ολικό ελάχιστο.

Κι αυτό γιατί δεν υπάρχει ακόμα αλγόριθμος (παρά μόνο ευριστικές μέθοδοι) για την αρχική επιλογή των κέντρων...

Όσον αφορά το άλλο ερώτημά σου, δεν καταλαβαίνω που μπερδεύεσαι. Είτε μονοδιάστατα, είτε n-διάστατα τα δεδομένα σου οι μέθοδοι είναι ίδιες. Το μόνο που αλλάζει είναι ο υπολογιστικός φόρτος κατά τον υπολογισμό των αποστάσεων.
ΠΑ ΒΩ ΚΑΙ ΚΙΝΩ ΤΑΝ ΓΑΝ

Απάντηση

Επιστροφή στο “Βάσεις Δεδομένων και SQL - γενικά”

Μέλη σε σύνδεση

Μέλη σε αυτήν τη Δ. Συζήτηση: Δεν υπάρχουν εγγεγραμμένα μέλη και 0 επισκέπτες