Ο νόμος του Zipf

Ο νόμος του Zipf είναι ένας εμπειρικός νόμος, ο οποίος διατυπώνεται με τη χρήση μαθηματικών στατιστικών και πήρε το όνομά του από τον γλωσσολόγο George Kingsley Zipf, ο οποίος τον πρότεινε πρώτος.

Ο νόμος του Zipf ορίζει ότι, δεδομένου ενός μεγάλου δείγματος χρησιμοποιούμενων λέξεων, η συχνότητα κάθε λέξης είναι αντιστρόφως ανάλογη της κατάταξής της στον πίνακα συχνοτήτων. Έτσι, η λέξη με αριθμό n έχει συχνότητα ανάλογη του 1/n.

Έτσι, η πιο συχνή λέξη θα εμφανίζεται περίπου δύο φορές πιο συχνά από τη δεύτερη πιο συχνή λέξη, τρεις φορές πιο συχνά από την τρίτη πιο συχνή λέξη κ.λπ. Για παράδειγμα, σε ένα δείγμα λέξεων της αγγλικής γλώσσας, η πιο συχνά εμφανιζόμενη λέξη, "the", αντιπροσωπεύει σχεδόν το 7% του συνόλου των λέξεων (69.971 από λίγο πάνω από 1 εκατομμύριο). Πιστή στο νόμο του Zipf, η δεύτερη στη σειρά λέξη "of" αντιπροσωπεύει λίγο πάνω από το 3,5% των λέξεων (36.411 εμφανίσεις), ακολουθούμενη από τη λέξη "and" (28.852). Μόνο περίπου 135 λέξεις χρειάζονται για να αντιπροσωπεύσουν το μισό δείγμα λέξεων σε ένα μεγάλο δείγμα.

Η ίδια σχέση εμφανίζεται και σε πολλές άλλες κατατάξεις, που δεν σχετίζονται με τη γλώσσα, όπως οι κατατάξεις του πληθυσμού των πόλεων σε διάφορες χώρες, τα μεγέθη των επιχειρήσεων, οι κατατάξεις του εισοδήματος κ.λπ. Η εμφάνιση της κατανομής στις κατατάξεις των πόλεων με βάση τον πληθυσμό παρατηρήθηκε για πρώτη φορά από τον Felix Auerbach το 1913.

Δεν είναι γνωστό γιατί ο νόμος του Zipf ισχύει για τις περισσότερες γλώσσες.

Ερωτήσεις και απαντήσεις

Ε: Τι είναι ο νόμος του Zipf;


A: Ο νόμος του Zipf είναι ένας εμπειρικός νόμος που δηλώνει ότι η συχνότητα μιας λέξης σε ένα μεγάλο δείγμα είναι αντιστρόφως ανάλογη της κατάταξής της στον πίνακα συχνοτήτων.

Ερ: Ποιος πρότεινε το νόμο του Zipf;


Α: Ο νόμος του Zipf προτάθηκε για πρώτη φορά από τον George Kingsley Zipf, γλωσσολόγο.

Ερ: Πώς εξηγεί ο νόμος του Zipf τη συχνότητα των λέξεων σε ένα δείγμα αγγλικών λέξεων;


Α: Σύμφωνα με το νόμο του Zipf, η πιο συχνή λέξη σε ένα δείγμα αγγλικών λέξεων εμφανίζεται περίπου δύο φορές πιο συχνά από τη δεύτερη πιο συχνή λέξη, τρεις φορές πιο συχνά από την τρίτη πιο συχνή λέξη κ.λπ. Η τάση αυτή συνεχίζεται όσο μειώνεται η θέση της λέξης.

Ερ: Ποιο ποσοστό όλων των λέξεων αντιπροσωπεύει η πιο συχνά εμφανιζόμενη λέξη σε ένα δείγμα αγγλικών λέξεων;


Α: Σε ένα δείγμα αγγλικών λέξεων, η πιο συχνά εμφανιζόμενη λέξη ("the") αντιπροσωπεύει σχεδόν το 7% όλων των λέξεων.

Ερ: Ποια είναι η σχέση μεταξύ του αριθμού των λέξεων που απαιτούνται για να αντιπροσωπεύουν το ήμισυ του δείγματος και της συχνότητας αυτών των λέξεων;


A: Σύμφωνα με το νόμο του Zipf, μόνο περίπου 135 λέξεις χρειάζονται για να αντιπροσωπεύουν το μισό δείγμα λέξεων σε ένα μεγάλο δείγμα.

Ερ: Σε ποιες άλλες κατατάξεις παρουσιάζεται ο νόμος του Zipf;


Α: Η ίδια σχέση που περιγράφει ο νόμος του Zipf στη συχνότητα των λέξεων εμφανίζεται και σε άλλες κατατάξεις που δεν σχετίζονται με τη γλώσσα, όπως οι πληθυσμιακές κατατάξεις των πόλεων σε διάφορες χώρες, τα μεγέθη των εταιρειών και οι κατατάξεις του εισοδήματος.

Ερ: Ποιος παρατήρησε την εμφάνιση της κατανομής στις κατατάξεις των πόλεων με βάση τον πληθυσμό;


Α: Η εμφάνιση της κατανομής στην κατάταξη των πόλεων με βάση τον πληθυσμό παρατηρήθηκε για πρώτη φορά από τον Felix Auerbach το 1913.

AlegsaOnline.com - 2020 / 2023 - License CC3