Στατιστικά στοιχεία

Η στατιστική είναι ένας κλάδος των εφαρμοσμένων μαθηματικών που ασχολείται με τη συλλογή, οργάνωση, ανάλυση, ερμηνεία και παρουσίαση δεδομένων. Η περιγραφική στατιστική συνοψίζει τα δεδομένα. Η επαγωγική στατιστική κάνει προβλέψεις. Η στατιστική βοηθά στη μελέτη πολλών άλλων τομέων, όπως η επιστήμη, η ιατρική, η οικονομία, η ψυχολογία, η πολιτική και το μάρκετινγκ. Κάποιος που ασχολείται με τη στατιστική ονομάζεται στατιστικολόγος. Εκτός του ότι είναι το όνομα ενός τομέα μελέτης, η λέξη "στατιστική" αναφέρεται επίσης σε αριθμούς που χρησιμοποιούνται για την περιγραφή δεδομένων ή σχέσεων.

Ιστορία

Τα πρώτα γνωστά στατιστικά στοιχεία είναι τα στοιχεία της απογραφής. Οι Βαβυλώνιοι έκαναν απογραφή γύρω στο 3500 π.Χ., οι Αιγύπτιοι γύρω στο 2500 π.Χ. και οι αρχαίοι Κινέζοι γύρω στο 1000 π.Χ.

Από τον 16ο αιώνα μαθηματικοί όπως ο Gerolamo Cardano ανέπτυξαν τη θεωρία των πιθανοτήτων, η οποία έκανε τη στατιστική επιστήμη. Έκτοτε, οι άνθρωποι συλλέγουν και μελετούν στατιστικές για πολλά πράγματα. Δέντρα, αστερίες, αστέρια, βράχοι, λέξεις, σχεδόν οτιδήποτε μπορεί να μετρηθεί έχει αποτελέσει αντικείμενο στατιστικής.

Συλλογή δεδομένων

Πριν μπορέσουμε να περιγράψουμε τον κόσμο με στατιστικές, πρέπει να συλλέξουμε δεδομένα. Τα δεδομένα που συλλέγουμε στη στατιστική ονομάζονται μετρήσεις. Αφού συλλέξουμε δεδομένα, χρησιμοποιούμε έναν ή περισσότερους αριθμούς για να περιγράψουμε κάθε παρατήρηση ή μέτρηση. Για παράδειγμα, ας υποθέσουμε ότι θέλουμε να μάθουμε πόσο δημοφιλής είναι μια συγκεκριμένη τηλεοπτική εκπομπή. Μπορούμε να επιλέξουμε μια ομάδα ανθρώπων (που ονομάζεται δείγμα) από το συνολικό πληθυσμό των τηλεθεατών. Στη συνέχεια ρωτάμε κάθε τηλεθεατή του δείγματος πόσο συχνά παρακολουθεί την εκπομπή. Το δείγμα είναι δεδομένα που μπορείτε να δείτε, ενώ ο πληθυσμός είναι δεδομένα που δεν μπορείτε να δείτε (αφού δεν ρωτήσατε κάθε τηλεθεατή του πληθυσμού). Για ένα άλλο παράδειγμα, αν θέλουμε να μάθουμε αν ένα συγκεκριμένο φάρμακο μπορεί να βοηθήσει στη μείωση της αρτηριακής πίεσης, θα μπορούσαμε να δώσουμε το φάρμακο στους ανθρώπους για κάποιο χρονικό διάστημα και να μετρήσουμε την αρτηριακή τους πίεση πριν και μετά.

Περιγραφική και επαγωγική στατιστική

Οι αριθμοί που περιγράφουν δεδομένα που μπορείτε να δείτε ονομάζονται περιγραφικές στατιστικές. Οι αριθμοί που κάνουν προβλέψεις για δεδομένα που δεν μπορείτε να δείτε ονομάζονται επαγωγικές στατιστικές.

Η περιγραφική στατιστική περιλαμβάνει τη χρήση αριθμών για την περιγραφή των χαρακτηριστικών των δεδομένων. Για παράδειγμα, το μέσο ύψος των γυναικών στις Ηνωμένες Πολιτείες είναι μια περιγραφική στατιστική που περιγράφει ένα χαρακτηριστικό (μέσο ύψος) ενός πληθυσμού (γυναίκες στις Ηνωμένες Πολιτείες).

Αφού συνοψιστούν και περιγραφούν τα αποτελέσματα, μπορούν να χρησιμοποιηθούν για πρόβλεψη. Αυτό ονομάζεται επαγωγική στατιστική. Για παράδειγμα, το μέγεθος ενός ζώου εξαρτάται από πολλούς παράγοντες. Ορισμένοι από αυτούς τους παράγοντες ελέγχονται από το περιβάλλον, αλλά άλλοι από την κληρονομικότητα. Ένας βιολόγος θα μπορούσε επομένως να φτιάξει ένα μοντέλο που να λέει ότι υπάρχει μεγάλη πιθανότητα οι απόγονοι να είναι μικροί σε μέγεθος αν οι γονείς ήταν μικροί σε μέγεθος. Αυτό το μοντέλο πιθανόν να επιτρέπει την πρόβλεψη του μεγέθους με καλύτερο τρόπο από ό,τι με μια απλή τυχαία εικασία. Ο έλεγχος του κατά πόσον ένα συγκεκριμένο φάρμακο μπορεί να χρησιμοποιηθεί για τη θεραπεία μιας συγκεκριμένης πάθησης ή ασθένειας γίνεται συνήθως με τη σύγκριση των αποτελεσμάτων των ατόμων στα οποία χορηγείται το φάρμακο με εκείνα των ατόμων στα οποία χορηγείται εικονικό φάρμακο.

Μέθοδοι

Τις περισσότερες φορές συλλέγουμε στατιστικά δεδομένα κάνοντας έρευνες ή πειράματα. Για παράδειγμα, μια δημοσκόπηση είναι ένα είδος έρευνας. Επιλέγουμε έναν μικρό αριθμό ανθρώπων και τους κάνουμε ερωτήσεις. Στη συνέχεια, χρησιμοποιούμε τις απαντήσεις τους ως δεδομένα.

Η επιλογή των ατόμων που θα συμμετάσχουν σε μια έρευνα ή συλλογή δεδομένων είναι σημαντική, καθώς επηρεάζει άμεσα τα στατιστικά στοιχεία. Όταν γίνουν οι στατιστικές, δεν μπορεί πλέον να καθοριστεί ποια άτομα λαμβάνονται. Ας υποθέσουμε ότι θέλουμε να μετρήσουμε την ποιότητα του νερού μιας μεγάλης λίμνης. Αν πάρουμε δείγματα δίπλα στην αποχέτευση των αποβλήτων, θα έχουμε διαφορετικά αποτελέσματα από ό,τι αν τα δείγματα ληφθούν σε ένα μακρινό, δυσπρόσιτο σημείο της λίμνης.

Υπάρχουν δύο είδη προβλημάτων που συναντώνται συνήθως κατά τη λήψη δειγμάτων:

  1. Εάν υπάρχουν πολλά δείγματα, τα δείγματα θα είναι πιθανότατα πολύ κοντά σε αυτά που υπάρχουν στον πραγματικό πληθυσμό. Εάν υπάρχουν πολύ λίγα δείγματα, ωστόσο, μπορεί να είναι πολύ διαφορετικά από αυτά που είναι στον πραγματικό πληθυσμό. Αυτό το σφάλμα ονομάζεται τυχαίο σφάλμα (βλέπε Σφάλματα και κατάλοιπα στη στατιστική).
  2. Τα άτομα για τα δείγματα πρέπει να επιλέγονται προσεκτικά, συνήθως επιλέγονται τυχαία. Εάν αυτό δεν συμβαίνει, τα δείγματα μπορεί να είναι πολύ διαφορετικά από ό,τι πραγματικά είναι στον συνολικό πληθυσμό. Αυτό ισχύει ακόμη και αν ληφθεί μεγάλος αριθμός δειγμάτων. Αυτό το είδος σφάλματος ονομάζεται μεροληψία.

Σφάλματα

Μπορούμε να μειώσουμε τα τυχαία σφάλματα λαμβάνοντας μεγαλύτερο δείγμα και μπορούμε να αποφύγουμε κάποια μεροληψία επιλέγοντας τυχαία. Ωστόσο, μερικές φορές είναι δύσκολο να ληφθούν μεγάλα τυχαία δείγματα. Και η μεροληψία μπορεί να συμβεί αν δεν ρωτηθούν διαφορετικά άτομα ή αν αρνηθούν να απαντήσουν στις ερωτήσεις μας ή αν γνωρίζουν ότι λαμβάνουν μια ψεύτικη θεραπεία. Αυτά τα προβλήματα μπορεί να είναι δύσκολο να διορθωθούν. Βλέπε επίσης τυπικό σφάλμα.

Περιγραφικές στατιστικές

Εύρεση του μέσου των δεδομένων

Η μέση τιμή των δεδομένων ονομάζεται μέσος όρος. Ο μέσος όρος μας λέει για ένα τυπικό άτομο στον πληθυσμό. Υπάρχουν τρία είδη μέσου όρου που χρησιμοποιούνται συχνά: ο μέσος όρος, η διάμεσος και ο τρόπος.

Τα παραδείγματα που ακολουθούν χρησιμοποιούν αυτά τα δεδομένα δείγματος:

 Όνομα | A B C D E F G H I J --------------------------------------------- score| 23 26 49 49 49 57 64 66 78 82 92

Μέσος όρος

Ο τύπος του μέσου όρου είναι

x ¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + + x N N {\displaystyle {\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}} {\displaystyle {\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}

Όπου x 1 , x 2 , ... , x N {\displaystyle x_{1},x_{2},\ldots ,x_{N}}}{\displaystyle x_{1},x_{2},\ldots ,x_{N}} είναι τα δεδομένα και N {\displaystyle N}{\displaystyle N} είναι το μέγεθος του πληθυσμού. (βλέπε συμβολισμός Sigma).

Αυτό σημαίνει ότι αθροίζετε όλες τις τιμές και στη συνέχεια διαιρείτε με τον αριθμό των τιμών.

Στο παράδειγμά μας x ¯ = ( 23 + 26 + 49 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58.6 {\displaystyle {\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58.6} {\displaystyle {\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58.6}

Το πρόβλημα με τον μέσο όρο είναι ότι δεν λέει τίποτα για το πώς κατανέμονται οι τιμές. Οι τιμές που είναι πολύ μεγάλες ή πολύ μικρές αλλάζουν πολύ τον μέσο όρο. Στη στατιστική, αυτές οι ακραίες τιμές μπορεί να είναι σφάλματα μέτρησης, αλλά μερικές φορές ο πληθυσμός πράγματι περιέχει αυτές τις τιμές. Για παράδειγμα, αν σε ένα δωμάτιο υπάρχουν 10 άτομα που βγάζουν 10 δολάρια/ημέρα και 1 που βγάζει 1.000.000 δολάρια/ημέρα. Ο μέσος όρος των δεδομένων είναι 90.918 δολάρια/ημέρα. Παρόλο που πρόκειται για το μέσο ποσό, ο μέσος όρος σε αυτή την περίπτωση δεν είναι το ποσό που βγάζει κάθε άτομο ξεχωριστά, επομένως είναι άχρηστος για ορισμένους σκοπούς.

Αυτός είναι ο "αριθμητικός μέσος". Άλλα είδη είναι χρήσιμα για ορισμένους σκοπούς.

Διάμεσος

Η διάμεσος είναι το μεσαίο στοιχείο των δεδομένων. Για να βρούμε τη διάμεσο ταξινομούμε τα δεδομένα από τον μικρότερο αριθμό στον μεγαλύτερο αριθμό και στη συνέχεια επιλέγουμε τον αριθμό στη μέση. Εάν υπάρχει ζυγός αριθμός δεδομένων, δεν θα υπάρχει αριθμός ακριβώς στη μέση, οπότε επιλέγουμε τα δύο μεσαία και υπολογίζουμε τη μέση τιμή τους. Στο παράδειγμά μας υπάρχουν 10 στοιχεία δεδομένων, τα δύο μεσαία είναι "57" και "64", οπότε η διάμεσος είναι (57+64)/2 = 60,5. Ένα άλλο παράδειγμα, όπως το παράδειγμα του εισοδήματος που παρουσιάστηκε για τη μέση τιμή, θεωρούμε ένα δωμάτιο με 10 άτομα που έχουν εισοδήματα 10, 20, 20, 40, 50, 60, 90, 90, 100 και 1.000.000 δολάρια, η διάμεσος είναι 55 δολάρια, επειδή τα 55 δολάρια είναι ο μέσος όρος των δύο μεσαίων αριθμών, 50 και 60 δολάρια. Αν αγνοηθεί η ακραία τιμή των $1.000.000, η μέση τιμή είναι $53. Σε αυτή την περίπτωση, η διάμεσος είναι κοντά στην τιμή που προκύπτει όταν η ακραία τιμή απορρίπτεται. Η διάμεσος επιλύει το πρόβλημα των ακραίων τιμών όπως περιγράφεται στον ορισμό του μέσου όρου παραπάνω.

Λειτουργία

Ο τρόπος είναι το πιο συχνό στοιχείο δεδομένων. Για παράδειγμα, το πιο συνηθισμένο γράμμα στα αγγλικά είναι το γράμμα "e". Θα λέγαμε ότι το "e" είναι ο τρόπος κατανομής των γραμμάτων.

Για παράδειγμα, αν σε ένα δωμάτιο υπάρχουν 10 άτομα με εισοδήματα 10, 20, 20, 40, 50, 60, 90, 90, 90, 100 και 1.000.000 δολάρια, ο τρόπος είναι 90 δολάρια, επειδή τα 90 δολάρια εμφανίζονται τρεις φορές και όλες οι άλλες τιμές εμφανίζονται λιγότερες από τρεις φορές.

Μπορεί να υπάρχουν περισσότερες από μία λειτουργίες. Για παράδειγμα, αν σε ένα δωμάτιο υπάρχουν 10 άτομα με εισοδήματα $10, $20, $20, $20, $50, $60, $90, $90, $90, $90, $100 και $1.000.000, οι τρόποι είναι $20 και $90. Αυτό είναι αμφίδρομο, ή έχει δύο τρόπους. Η διτροπικότητα είναι πολύ συνηθισμένη και συχνά υποδηλώνει ότι τα δεδομένα είναι ο συνδυασμός δύο διαφορετικών ομάδων. Για παράδειγμα, το μέσο ύψος όλων των ενηλίκων στις ΗΠΑ έχει διτροπική κατανομή. Αυτό συμβαίνει επειδή οι άνδρες και οι γυναίκες έχουν ξεχωριστό μέσο ύψος 1,763 m (5 ft 9 + 1⁄2 in) για τους άνδρες και 1,622 m (5 ft 4 in) για τις γυναίκες. Αυτές οι κορυφές είναι εμφανείς όταν συνδυάζονται και οι δύο ομάδες.

Ο τρόπος είναι η μόνη μορφή μέσου όρου που μπορεί να χρησιμοποιηθεί για δεδομένα που δεν μπορούν να τοποθετηθούν σε σειρά.

Εύρεση της διασποράς των δεδομένων

Ένα άλλο πράγμα που μπορούμε να πούμε για ένα σύνολο δεδομένων είναι το πόσο διασκορπισμένα είναι. Ένας συνηθισμένος τρόπος για να περιγράψουμε την εξάπλωση ενός συνόλου δεδομένων είναι η τυπική απόκλιση. Εάν η τυπική απόκλιση ενός συνόλου δεδομένων είναι μικρή, τότε τα περισσότερα δεδομένα είναι πολύ κοντά στο μέσο όρο. Εάν όμως η τυπική απόκλιση είναι μεγάλη, τότε πολλά από τα δεδομένα διαφέρουν πολύ από τον μέσο όρο.

Εάν τα δεδομένα ακολουθούν το κοινό πρότυπο που ονομάζεται κανονική κατανομή, τότε είναι πολύ χρήσιμο να γνωρίζετε την τυπική απόκλιση. Εάν τα δεδομένα ακολουθούν αυτό το μοτίβο (θα λέγαμε ότι τα δεδομένα είναι κανονικά κατανεμημένα), περίπου 68 από κάθε 100 δεδομένα θα απέχουν από το μέσο όρο λιγότερο από την τυπική απόκλιση. Και όχι μόνο αυτό, αλλά περίπου 95 από κάθε 100 μετρήσεις θα απέχουν από τον μέσο όρο λιγότερο από δύο φορές την τυπική απόκλιση και περίπου 997 στις 1000 θα είναι πιο κοντά στον μέσο όρο από τρεις τυπικές αποκλίσεις.

Άλλες περιγραφικές στατιστικές

Μπορούμε επίσης να χρησιμοποιήσουμε τη στατιστική για να διαπιστώσουμε ότι κάποιο ποσοστό, εκατοστημόριο, αριθμός ή κλάσμα ανθρώπων ή πραγμάτων σε μια ομάδα κάνουν κάτι ή ανήκουν σε μια συγκεκριμένη κατηγορία.

Για παράδειγμα, οι κοινωνικοί επιστήμονες χρησιμοποίησαν στατιστικές για να διαπιστώσουν ότι το 49% των ανθρώπων στον κόσμο είναι άνδρες.

Σχετικό λογισμικό

Για την υποστήριξη των στατιστικολόγων, έχουν αναπτυχθεί πολλά στατιστικά λογισμικά:

  • Ινστιτούτο SAS
  • SPSS (από την IBM)

Ερωτήσεις και απαντήσεις

Ε: Τι είναι η στατιστική;


A: Η στατιστική είναι ένας κλάδος των εφαρμοσμένων μαθηματικών που ασχολείται με τη συλλογή, οργάνωση, ανάλυση, ανάγνωση και παρουσίαση δεδομένων.

Ερ: Ποιοι είναι οι δύο τύποι στατιστικής;


A: Οι δύο τύποι στατιστικής είναι η περιγραφική και η επαγωγική. Η περιγραφική στατιστική κάνει περιλήψεις των δεδομένων, ενώ η επαγωγική στατιστική κάνει προβλέψεις.

Ερ: Πώς βοηθά η στατιστική σε άλλους τομείς;


Α: Η στατιστική βοηθά στη μελέτη πολλών άλλων πεδίων, όπως η επιστήμη, η ιατρική, η οικονομία, η ψυχολογία, η πολιτική και το μάρκετινγκ.

Ερ: Ποιος εργάζεται στον τομέα της στατιστικής;


Α: Κάποιος που εργάζεται στον τομέα της στατιστικής ονομάζεται στατιστικολόγος.

Ερ: Τι σημαίνει η λέξη "στατιστική";


Α: Εκτός από το ότι είναι το όνομα ενός πεδίου μελέτης, η λέξη "στατιστική" μπορεί επίσης να σημαίνει αριθμούς που χρησιμοποιούνται για την περιγραφή δεδομένων ή σχέσεων.

Ερ: Με ποιες δραστηριότητες ασχολούνται οι στατιστικολόγοι;


Α: Οι στατιστικολόγοι ασχολούνται με δραστηριότητες όπως η συλλογή, η οργάνωση, η ανάλυση, η ανάγνωση και η παρουσίαση δεδομένων.

AlegsaOnline.com - 2020 / 2023 - License CC3