Ο μύθος των 6 εκατομμυρίων λέξεων…Το πανεπιστήμιο Irving…Ίβυκος…TLG…

Συχνά-πυκνά, ακούμε να λένε για την ελληνική γλώσσα (την αρχαία, συνήθως) ότι είναι η πλουσιότερη απ’ όλες τις γλώσσες του κόσμου –και ως μέτρο του πλούτου αναφέρεται ο αριθμός των λέξεων της γλώσσας μας. Πόσες λέξεις έχει η αρχαία ελληνική; Αν πιστέψουμε διάφορους εθνικιστές ή απλώς τερατολόγους, έχει εκατομμύρια.

Έτσι, ο θεωρητικός της χούντας Γ. Γεωργαλάς, στο βιβλίο του «Ινδοευρωπαίοι ή Αιγαίοι;» (εκδ. Τότε, 1996, σελ. 70) γράφει:

Το πανεπιστήμιο Irving [διάβαζε: Irvine –σημ. Ν.Σ.] της Καλιφόρνιας επιμελήθηκε την κατασκευή του υπολογιστού Ίβυκος όπου περιέχονται 6.000.000 λέξεις και 71.000.000 λεκτικοί τύποι της Ελληνικής. Για σύγκρισι, η Αγγλική έχει 490.000 λέξεις και 300.000 τεχνικούς όρους.

Την ίδια χρονιά, σε άρθρο του στον Δαυλό, με τον μετριόφρονα τίτλο «Αστρονομική απόδειξη ότι η Ελληνική Γλώσσα εχρησιμοποιείτο πριν 28.000 χρόνια», («Δαυλός», τ. 176-177, Αυγ.-Σεπτ. 1996, σελ. 10745-10755) ο Κων. Κουτρουβέλης επικαλείται τα ίδια νούμερα για να «αποδείξει» ότι αποκλείεται η πλουσιότατη ελληνική να κατάγεται από την φτωχή ινδοευρωπαϊκή.

Ο μύθος διαδίδεται στα περιοδικά του «ελληνοκεντρικού» χώρου. Έτσι, στο περιοδικό Ελληνική Αγωγή (Ιούν. 2001) διάβασα για μια διάλεξη της κ. Βάγιας Καραντινίδη, η οποία συστήνεται ως «κλινική ψυχολόγος, παιδοψυχολόγος και διεθνής επιστήμων της αρχαίας ελληνικής φιλοσοφίας» (όχι, παίζουμε!) και η οποία υποστήριξε ότι η ελληνική είναι «η πλουσιότερη γλώσσα του κόσμου με 5.000.000 λέξεις και 70.000.000 λεξικούς τύπους, όπως καταγράφτηκε στο βιβλίο Γκίνες (!), ενώ η αγγλική έχει μόνον 490.000 λέξεις.»

Το κακό είναι ότι τα «70 εκατομμύρια λεκτικοί τύποι» και τα «6 εκατομμύρια λέξεις» επαναλαμβάνονται όχι μόνο στα έντυπα του εθνικιστικού περιθωρίου αλλά και στα πιο ευυπόληπτα και κοντεύουν να καθιερωθούν ως αλήθεια. Έτσι, ένα άρθρο της κ. Εύας-Χριστίνας Γεωργαλά (αναρωτιέμαι αν είναι συγγενής του χουντοδιανοούμενου) με τον ενδεικτικό τίτλο «Ελληνική –γλώσσα άνευ ορίων», αναδημοσιεύτηκε ευρύτατα (και, δυστυχώς, άκριτα) σε πολλά σοβαρά έντυπα, ας πούμε στην εφημερίδα Μεσόγειο του Ηρακλείου, τη μεγαλύτερη της Κρήτης, στις 25.2.2000.

Το άρθρο αυτό, που το έχω αποκαλέσει «Λερναίο» και το αναλύω σε επόμενο σημείωμα (βλ. σελ. 23) επειδή περιέχει αρκετά άξια σχολιασμού τερατολογήματα περί ελληνικής γλώσσας, για το θέμα μας αναφέρει:

Έτσι, η Ελληνική αποθησαυρίστηκε από το Πανεπιστήμιο Ιρβάιν της Καλιφόρνιας. Δηλαδή αποθησαυρίστηκαν στον ηλεκτρονικό υπολογιστή έξι (αριθμός 6!) εκατομμύρια λέξεις και 78 εκατομμύρια λεκτικοί τύποι της ελληνικής γλώσσας, έναντι μερικών εκατοντάδων χιλιάδων της αγγλικής.

Πιο πρόσφατα, στις ιστοσελίδες του έγκυρου in.gr, διαβάσαμε σε άρθρο που υπογράφεται με τα αρχικά Ν.Β., ότι οι αρχαίοι έλληνες είχαν «λεξιλόγιο που αγγίζει τα 70 εκατομμύρια τύπους». Το ίδιο παραμύθι, δηλαδή.

Οι περισσότεροι μύθοι έχουν μέσα τους κάποιον κόκκο αλήθειας, το ίδιο και ο προκείμενος. Αλλά πρώτα να ξεκαθαρίσουμε τι εννοούμε λέγοντας λέξεις και λεκτικούς τύπους. Λέξεις εν προκειμένω είναι τα λήμματα του λεξικού. Παράδειγμα η λέξη «άνθρωπος». Σε κάθε λέξη-λήμμα αντιστοιχούν ένας ή (συνήθως) περισσότεροι λεκτικοί τύποι. Έτσι, η λέξη άνθρωπος (ένα λήμμα) έχει στην αρχαία γλώσσα κάπου δώδεκα λεκτικούς τύπους (πέντε πτώσεις στον ενικό, τέσσερις στον πληθυντικό, αφού η κλητική ταυτίζεται με την ονομαστική, ο δυϊκός αριθμός συν κάποιοι εναλλακτικοί τύποι της δοτικής). Αν η λέξη είναι ρήμα έχει ίσως πάνω από εκατό λεκτικούς τύπους, μια και έχουμε τόσους χρόνους και τόσες εγκλίσεις, που πρέπει να πολλαπλασιαστούν επί έξι, αφού τόσα είναι τα πρόσωπα, και ίσως να διπλασιαστούν αν υπάρχει και μέση φωνή. Στο άλλο άκρο, αν η λέξη-λήμμα είναι επίρρημα ή άλλη άκλιτη λέξη, θα έχει μόνο έναν λεκτικό τύπο.

Το πανεπιστήμιο Ιρβάιν (Irvine) της Καλιφόρνιας πράγματι έχει αποθησαυρίσει όλα (σχεδόν) τα κείμενα της αρχαίας ελληνικής (και ορισμένα μεταγενέστερα, έως την Άλωση) και τα διαθέτει στον ψηφιακό δίσκοTLG (Thesaurus Linguae Graecae)  –ο Ίβυκος τον οποίο αναφέρει ο Γεωργαλάς είναι παλαιότερος υπολογιστής που δεν χρησιμοποιείται πια. Όλα αυτά τα κείμενα δεν είναι και πάρα πολλά, κάπου 615 megabyte για τους τεχνολογικά ενήμερους, χωράνε δηλαδή ίσα-ίσα σε έναν ψηφιακό δίσκο (CD-ROM). Λέω ότι δεν είναι και πάρα πολλά, όσα έχουν διασωθεί εννοείται, διότι το ετήσιο σώμα μιας σημερινής καθημερινής εφημερίδας περιέχει μεγαλύτερον όγκο κειμένων (πράγμα που αποδεικνύει ότι ουκ εν τω πολλώ το ευ!)

Όλα αυτά λοιπόν τα κείμενα έχουν συνολικό αριθμό λέξεων κάπου 78 εκατομμύρια, με τον ίδιο τρόπο που μια σελίδα του βιβλίου που διαβάζετε τώρα έχει συνολικά κάπου 400 λέξεις. Για να δώσω ένα παράδειγμα, στα κείμενα του TLG, το λήμμα άνθρωπος, υπό τους διάφορους λεκτικούς τύπους του, απαντά περίπου 135.000 φορές.

Ας το δούμε πιο αναλυτικά, έτσι από περιέργεια.

άνθρωπος 27.966 εμφανίσεις             άνθρωποι 9.231

ανθρώπου 15.895                                ανθρώπων 29.064

ανθρώπω 5.917                       ανθρώποις 13.905, ανθρώποισι 520, ανθρώποισιν 498

άνθρωπον 18.922                                ανθρώπους 11.055

άνθρωπε 1.652

ανθρώποιν 10

Ας κάνουμε τη σούμα: έχουμε 1 Λέξη, 12 λεκτικούς τύπους, 134.635 εμφανίσεις (συνολικό αριθμό λέξεων)[1].

Ο συνολικός αριθμός των λέξεων της αρχαίας γραμματείας (αυτό που στα αγγλικά λέγεται word count) είναι λοιπόν 78.000.000. Εδώ ο Γεωργαλάς και οι συν αυτώ κάνουν μια ελαφρώς χοντροκομμένη λαθροχειρία: συνδέουν τον αριθμό «78.000.000» με τον αριθμό των λεκτικών τύπων της ελληνικής –και επειδή σε κάθε λέξη-λήμμα αντιστοιχούν κατά μέσο όρο περίπου 12-15 λεκτικοί τύποι, με μια απλή μπακάλικη διαίρεση προκύπτει ότι ο αριθμός λέξεων (λημμάτων) της αρχαίας είναι πέντε-έξι εκατομμύρια, πολύ μεγαλύτερος απ’ ό,τι της πτωχής αγγλικής.

Φυσικά, υπάρχει τεράστια διαφορά ανάμεσα σε συνολικό αριθμό εμφανίσεων λέξεων και σε συνολικό αριθμό λημμάτων. Πόσες είναι οι λέξεις/λήμματα της αρχαίας; Αν πάρουμε υπόψη ότι το λεξικόLiddell-Scott περιλαμβάνει στην τελευταία του ηλεκτρονική έκδοση 136.292 λήμματα, θα καταλήξουμε σε περίπου 150.000 λέξεις, πολύ λιγότερες από τις λέξεις της αγγλικής, και κατά πάσα πιθανότητα και από τις λέξεις της νέας ελληνικής. (Και είναι βεβαίως άδικο να συγκρίνουμε μια αρχαία γλώσσα, έστω και ικανοποιητικά παραδομένη, όπως η ελληνική, με μια νέα που εμπλουτίζεται διαρκώς από την ακένωτη δεξαμενή των νεολογισμών και των δανείων). Πάντως καμιά σχέση με τα 6 ή με τα 78 εκατομμύρια.

Λοιπόν, ο συνολικός αριθμός των λημμάτων της αρχαίας ελληνικής είναι γύρω στις 150.000 (αντί των 6.000.000 της εθνικιστικής ονείρωξης), ενώ οι λεκτικοί τύποι, σύμφωνα με πληροφορία που μου έδωσε ο Νίκος Νικολάου, ερευνητής γλωσσολόγος στο πανεπιστήμιο Irvine, ανέρχονται περίπου σε 1.200.000 (αντί των 70 εκατομμυρίων του Γεωργαλά και σία). Αλλά είπαμε, ουκ εν τω πολλώ το ευ.

Υ.Γ.

Δεν είμαι βέβαια ο μοναδικός που ασχολήθηκε με το θέμα των λέξεων της ελληνικής. Σε διαδικτυακό φόρουμ κλασικών φιλολόγων τέθηκε η ίδια ερώτηση και η κ. Μαρία Παντελιά, διευθύντρια του TLG, έδωσε τον ίδιο αριθμό λεκτικών τύπων, 1.200.000 δηλαδή.

Ενημέρωση, μερικά χρόνια αργότερα

Ωστόσο, το TLG συνέχισε να αυξάνει το σώμα των κειμένων του, προσθέτοντας όλο και περισσότερα κείμενα της βυζαντινής εποχής. Ο συνολικός αριθμός των λέξεων, από 78 εκατομμύρια που ήταν για την έκδοση Ε έχει σήμερα (2007) ξεπεράσει τα 90 εκατομμύρια. Αυτό δεν πέρασε απαρατήρητο: σε νεότερες εκδόσεις του Λερναίου κειμένου που κυκλοφορούν, ο αρχικός μύθος για τα 70 εκατομμύρια λέξεις ή λεκτικούς τύπους της ελληνικής έχει επικαιροποιηθεί σε 90 εκατομμύρια λέξεις ή λεκτικούς τύπους. Κάποιος ιστοναύτης είχε την πρωτοβουλία να ρωτήσει απευθείας την κ. Μ. Παντελιά για τον αριθμό των λέξεων του TLG και πήρε την απάντηση (την οποία δημοσιοποίησε) ότι δεν είναι προς το παρόν δυνατό να υπολογιστούν λήμματα, αλλά πάντως στα 90 εκατομμύρια λέξεις του σώματος του TLG υπάρχουν 1.332.564 λεκτικοί τύποι. Όταν ολοκληρωθεί το σώμα των κειμένων θα μπορούμε να πούμε ότι υπάρχουν περίπου 1.500.000 λεκτικοί τύποι από την αρχή έως τον 15ο αι. μ.Χ. (δηλ. με την άλωση της Κωνσταντινούπολης). Αν προσθέσουμε, συνεχίζει η Μ. Παντελιά, τις νεοελληνικές και τις διαλεκτικές παραλλαγές, ο αριθμός θα μπορούσε να φτάσει τα 2 εκατομμύρια λεκτικούς τύπους.

Εδώ αξίζουν δύο επισημάνσεις. Η πρώτη και μάλλον δευτερεύουσα, είναι ότι δεν διευκρινίζεται αν στους 1.332.564 λεκτικούς τύπους περιλαμβάνονται και οι «αντικανονικοί» τύποι για τους οποίους μίλησα στην υποσημείωση, που με μια πολύ χοντρική εκτίμηση θα μπορούσαν εύκολα να είναι 100.000, ίσως περισσότεροι. Η δεύτερη, και πιο ουσιαστική, είναι ότι το σώμα των κειμένων του TLG τώρα περιλαμβάνει σχεδόν όλα τα κείμενα μέχρι την Άλωση, άρα στους εικαζόμενους 1.500.000 λεκτικούς τύπους περιλαμβάνονται και πολλοί τύποι που δεν ανήκουν στην αρχαία, που είναι ας πούμε μεταγενέστερα δάνεια, που πολλά από αυτά θα τα απέρριπτε μετά βδελυγμίας κάθε ελληναράς που σέβεται τον εαυτό του.

Για να ανακεφαλαιώσω, η ελληνική γλώσσα από την αρχαιότητα έως την Άλωση, όπως (θα) έχει αποθησαυριστεί στο TLG, έχει περίπου:

Λήμματα                                                         160.000

Λεκτικούς τύπους                                           1.500.000

Συνολικό αριθμό λέξεων                                90.000.000


[1] Στην πραγματικότητα, ο αριθμός των λεκτικών τύπων είναι αρκετά μεγαλύτερος, γιατί για κάθε «ομαλό» λεκτικό τύπο παραδίδονται στη γραμματεία και υπάρχουν στο TLG και αρκετοί ανορθόγραφοι ή κακογραμμένοι τύποι που ο καθένας τους απαντά ελάχιστες φορές. Για παράδειγμα, πέρα από τον τύπο ἂνθρωπος (με ψιλή οξεία), που έχει 27.966 εμφανίσεις, το TLG στην έκδοση Ε καταγράφει επίσης στο ευρετήριό του τους τύπους: ανθρωπος (χωρίς πνεύμα και τόνο) με 9 εμφανίσεις, ἂνθρωποσ με 1 εμφάνιση, !ἂνθρωπος (με κολλημένο θαυμαστικό, αγνοώ γιατί) επίσης με μία εμφάνιση, ἀνθρωπός με 5 εμφανίσεις, και ἃνθρωπος (με δασεία) με 196 εμφανίσεις που όμως σε πολλές εμφανίσεις δεν είναι αντικανονικός τύπος αλλά κράση του ουσιαστικού με το άρθρο που προηγείται. Αν υπολογιστούν όλοι οι αντικανονικοί τύποι, ο συνολικός αριθμός των επαναλαμβανόμενων λέξεων του λήμματος «άνθρωπος» δεν αυξάνεται πολύ, αφού οι περισσότεροι αντικανονικοί τύποι απαντούν ελάχιστες φορές, αλλά ο αριθμός των λεκτικών τύπων επηρεάζεται πολύ περισσότερο. Πράγματι, όλοι μαζί οι αντικανονικοί τύποι της λέξης άνθρωπος είναι 55 και έχουν 779 εμφανίσεις –δηλαδή ο αριθμός των συνολικών λέξεων αυξάνει περίπου κατά 0,5%, αλλά ο αριθμός των λεκτικών τύπων πενταπλασιάζεται! Να σημειωθεί ότι από αυτούς τους αντικανονικούς τύπους, τρεις έχουν πάνω από 100 εμφανίσεις (το ἃνθρωπος που είδαμε με 196, το ἀνθρώπω (χωρίς υπογεγραμμένη) έχει 106 και το ἀνθρώπωι (με προσγεγραμμένο το γιώτα) έχει 162) -οι άλλοι έχουν ελάχιστο αριθμό εμφανίσεων. Βέβαια, το παράδειγμα που διάλεξα αφορά μια από τις πιο πολυχρησιμοποιημένες λέξεις της γλώσσας, οπότε είναι φυσικό να πληθαίνουν οι αντικανονικοί τύποι. Σε όχι πολύχρηστες λέξεις ο αριθμός των αντικανονικών λεκτικών τύπων είναι πολύ μικρότερος, ενώ βέβαια σε σπάνια λήμματα ούτε καν απαντούν όλοι οι κανονικοί λεκτικοί τύποι.

http://www.sarantakos.com/language/ekatom.htm

Advertisements

Posted on Ιανουαρίου 17, 2011, in ΑΝΑΚΟΙΝΩΣΕΙΣ, ΑΝΑΤΡΟΠΕΣ, ΑΠΑΤΕΩΝΕΣ, ΑΠΟ-ΜΥΘΟΠΟΙΗΣΗ, ΒΙΒΛΙΑ, ΒΙΒΛΙΟΕΡΕΘΙΣΜΑΤΑ, ΕΛΛΗΝΟΚΕΝΤΡΙΚΑ ΚΑΙ ΑΛΛΑ, ΕΡΕΘΙΣΜΑΤΑ, ΘΕΣΕΙΣ-ΑΠΟΨΕΙΣ, ΜΕΓΑΛΕΣ ΑΠΑΤΕΣ, ΠΕΡΙΕΡΓΑ ΣΕΝΑΡΙΑ, ΠΛΑΚΑ ΜΕ ΚΑΝΕΙΣ?, ΣΑΡΑΝΤΑΚΟΣ and tagged , , . Bookmark the permalink. 1 σχόλιο.

  1. antereaplutoi na poume pante kante parea stis julieskai tous maurous..aplutoi e aplutoi

    Μου αρέσει!

Σχολιάστε

Εισάγετε τα παρακάτω στοιχεία ή επιλέξτε ένα εικονίδιο για να συνδεθείτε:

Λογότυπο WordPress.com

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό WordPress.com. Αποσύνδεση / Αλλαγή )

Φωτογραφία Twitter

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Twitter. Αποσύνδεση / Αλλαγή )

Φωτογραφία Facebook

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Facebook. Αποσύνδεση / Αλλαγή )

Φωτογραφία Google+

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Google+. Αποσύνδεση / Αλλαγή )

Σύνδεση με %s

Αρέσει σε %d bloggers: