Discussion:
Bogstavernes hyppighed på dansk
(for gammel til at besvare)
Bertel Lund Hansen
2024-04-05 06:12:34 UTC
Permalink
Jeg har hentet alle ordene fra COR (Centrale OrdRegister) som
Sprognævnet stiller til rådighed. Det indeholder alle ordene i RO, men
der er også flere.

Jeg har talt forekomsten af alle bogstaverne idet jeg har konverteret
store bogstaver til små. Derefter sorterede jeg bogstaverne efter deres
hyppighed med de hyppigste forrest. Det giver følgende streng:

ersnitaldokgmufpvbæhøyjcåzwxéq

Rækkefølgen vil ikke nødvendigvis svare til hvad man finder ved at tælle
på en tekst med mange ord. F.eks. er "og" nok et almindeligt ord, og det
vil måske rykke o og g mere mod venstre.
--
Bertel, Denmark
Henry Vest
2024-04-06 06:29:09 UTC
Permalink
Post by Bertel Lund Hansen
ersnitaldokgmufpvbæhøyjcåzwxéq
Jeg synes det ser ret forventeligt ud. Jeg undrer mig dog lidt over at
du har talt é som et selvstændigt bogstav.
--
Henry Vest
Bertel Lund Hansen
2024-04-06 06:46:52 UTC
Permalink
Post by Henry Vest
Post by Bertel Lund Hansen
ersnitaldokgmufpvbæhøyjcåzwxéq
Jeg synes det ser ret forventeligt ud. Jeg undrer mig dog lidt over at
du har talt é som et selvstændigt bogstav.
Det har du da ret i. Ny streng:

ersnitaldokgmufpvbæhøyjcåzwxq

Pudisgt at den første del kan udtales som et ord (ersnitaldok). Det gør
det let at huske.
--
Bertel
Kolt, Denmark
Bertel Lund Hansen
2024-04-08 09:55:58 UTC
Permalink
Post by Bertel Lund Hansen
ersnitaldokgmufpvbæhøyjcåzwxq
Nu har jeg fået adgang til et tekskorpus. En optælling derfra af
bogstaverne giver et lidt andet resultat:

ersntidalogmkfvuhpbåæøjycwzxq

De 50 hyppigste ord er i rækkefølge:

i : 27'754
og : 26'068
at : 24'088
er : 18'489
det : 17'997
en : 15'315
til : 13'943
på : 13'459
af : 13'053
for : 12'193
der : 11'430
den : 11'065
de : 10'948
med : 10'697
som : 8'933
har : 8'807
ikke : 8'503
et : 7'191
om : 6'444
jeg : 5'460
men : 5'274
han : 5'219
var : 5'020
så : 4'992
kan : 4'701
vi : 4'678
fra : 4'409
sig : 4'150
man : 3'806
skal : 3'284
vil : 3'087
ved : 2'993
også : 2'835
være : 2'515
år : 2'332
eller : 2'250
hvor : 2'208
over : 2'172
blev : 2'143
hun : 2'100
efter : 1'994
havde : 1'971
ud : 1'955
da : 1'867
siger : 1'854
nu : 1'837
op : 1'778
når : 1'741
meget : 1'737
kunne : 1'733
--
Bertel
Kolt, Denmark
db
2024-04-09 14:21:11 UTC
Permalink
Post by Bertel Lund Hansen
Post by Bertel Lund Hansen
ersnitaldokgmufpvbæhøyjcåzwxq
Nu har jeg fået adgang til et tekskorpus. En optælling derfra af
ersntidalogmkfvuhpbåæøjycwzxq
17'997 en : 15'315 til : 13'943 på : 13'459 af : 13'053 for
: 12'193 der : 11'430 den : 11'065 de : 10'948 med : 10'697
6'444 jeg : 5'460 men : 5'274 han : 5'219 var : 5'020 så
: 4'992 kan : 4'701 vi : 4'678 fra : 4'409 sig : 4'150
2'835 være : 2'515 år : 2'332 eller : 2'250 hvor : 2'208 over
: 2'172 blev : 2'143 hun : 2'100 efter : 1'994 havde : 1'971 ud
: 1'955 da : 1'867 siger : 1'854 nu : 1'837 op : 1'778
når : 1'741 meget : 1'737 kunne : 1'733
Den slags analyse kan man bruge til at identificere
forfattere. Jeg kendte en professor af engelsk i
Australien som gjorde det. Han brugte et udvalg af
de mest hyppige ord, synes jeg at huske. Han kunne
for eksempel konkludere at nogle romaner tilskrevet
en berømt forfatter var faktisk skrevet af hans søster.
Professoren hed Johnm Burrows. En anden ting han
kunne se var, at gamle tekster var markant anderledes
end moderne; og når folk forsøgte at efterligne

gammelt sprog, var det alligevel modern in den forstand.

weis
2024-04-07 07:28:39 UTC
Permalink
Post by Bertel Lund Hansen
Jeg har hentet alle ordene fra COR (Centrale OrdRegister) som
Sprognævnet stiller til rådighed. Det indeholder alle ordene i RO, men
der er også flere.
Jeg har talt forekomsten af alle bogstaverne idet jeg har konverteret
store bogstaver til små. Derefter sorterede jeg bogstaverne efter deres
ersnitaldokgmufpvbæhøyjcåzwxéq
Rækkefølgen vil ikke nødvendigvis svare til hvad man finder ved at tælle
på en tekst med mange ord. F.eks. er "og" nok et almindeligt ord, og det
vil måske rykke o og g mere mod venstre.
Er det kun ubøjede ord der står i COR, eller forekommer der også bøjede
former?
Bertel Lund Hansen
2024-04-07 08:20:06 UTC
Permalink
Post by weis
Er det kun ubøjede ord der står i COR, eller forekommer der også bøjede
former?
Der står alle bøjningsformer, men jeg har kun medtaget grundordene.

Der er fri adgang til registret, og der er forklaringer og
søgemuligheder på websiden:

https://ordregister.dk/

Man kan i øvrigt også hente hele registret. De fylder p.t. 31 Mbyte.
--
Bertel
Kolt, Denmark
Loading...