Куянов Юрий Владимирович, старший научный сотрудник, НИЦ «Курчатовский институт» ФГБУ ИФВЭ, г. Протвино
Тел. (4967)-71-39-67
Эл. почта: Yu.Kuyanov@ihep.ru
Сайт: http://sirius.ihep.su/~kuyanov/

Тришин Виталий Николаевич, к.ф.-м.н., Председатель Совета директоров ООО «ОКП», г. Москва
Тел. (495)-222-22-58
Эл. почта: mail@trishin.ru
Сайт: www.trishin.ru

(сокращенный вариант статьи (без таблиц 1, 2 и приложений) напечатан в журнале «Научное обозрение: гуманитарные исследования», №9, 2015 г. стр. 105-111)

Продолжение статьи "Мощь русского языка по данным синонимического словаря-справочника компьютерной оценочной системы ASIS".

Аннотация

В статье обсуждаются вычисления «в среднем», используемые в частотных словарях русского языка на основании произвольно выбранных текстов «представительного корпуса» русского языка. Доказательства «представительности» выбранных текстов, и что именно под этим термином понимается, фактически отсутствуют в работах этих авторов. В данной работе принят другой подход, а именно, анализируются слова самого большого электронного словаря-справочника русского языка Тришина В.Н. на 565 тыс. слов и словосочетаний. В статье приводится среднее число символов 12 в русском языке на основе словаря-справочника, которое существенно отличается от данных двух известных частотных словарей 5,28 и 5,4 на основе выбранных «представительных корпусов». Приводятся и другие численные характеристики словаря-справочника. Статья тем самым расширяет наше представление о русском языке и возможности его сравнения с другими языками.

Статья может представлять интерес для специалистов по компьютерной обработке текстов и поиску информации, для любителей русского языка.

Ключевые слова: Большой словарь-справочник синонимов русского языка системы ASIS, частотность, частотный словарь, среднее число символов в слове, компьютерная обработка текстов, поиск информации, самые длинные слова русского языка.

QUANTITATIVE ANALYSIS OF THE LARGE RUSSIAN REFERENCE DICTIONARY OF SYNONYMS

Yury V. Kuyanov
Senior researcher, NRC "Kurchatov Institute" Institute for High Energy Physics, Protvino
Tel. +7(4967)-71-39-67
E-mail: Yu.Kuyanov@ihep.ru

Vitaly N. Trishin
PhD in Physico-mathematical Science, Chairman of the board of directors of «OKP» company, Moscow
http://www.trishin.ru
Tel.: +7(495)- 222-22-58
E-mail: mail@trishin.ru



The article discusses the calculation of an “average” used in frequency dictionaries of Russian on the basis of randomly selected texts of the “representative body” of the Russian language. Evidence of the selected texts being “representative”, or the clarificationof what exactly this term conveys, are virtually absen in the works of these authors. In this article, a different approach is adopted, namely, analysisof the world’s largest electronic reference dictionary of Russian by V. N. Trishin, containing 565 thousand words and phrases. The article provides an average of 12 characters per word in Russian based on the reference dictionary, which differs substantially from the data of the two well-known frequency dictionaries of 5.28 and 5.4, based on the selected “representative bodies”. Other numerical characteristics of the reference dictionary are presented as well. The article thus expands our understanding of the Russian language and the possibility of comparison with other languages. The article may be of interest to computer word processing information retrieval professionals and fans of the Russian language.

Keywords: Large Russian reference dictionary of synonyms of the ASIS system, frequency, frequency dictionary, average number of characters in a word, computer word processing, information retrieval.

1. Введение

Ответ от Google на комбинацию слов “средняя”+”длина”+”слов”+”языке” насчитывает сотни тысяч ссылок.

Среди выбранных страниц фигурирует и описание мифического сражения американцев с японцами, в которых американцы победили, так как средняя длина слова в английском языке (5 букв) якобы существенно короче японского (14 букв, хотя в японском языке используются иероглифы, а не буквы!). Упоминание этого «сражения» (без ссылок на первоисточник, — якобы работу «американских историков») приведено в десятках тысяч интернетовских текстов, в том числе и в интервью писателя, филолога Витковского Е. В. [1], где указывается также средняя длина слова русского языка 7, и говорится о том, что русские неуязвимы в бою, т.к. «в боевой обстановке любой вменяемый командир немедленно переходит на мат. А русский мат короче английского» (а если командир не матерится, то он невменяемый?). При этом ещё и приравниваются средние длины слов в письменных текстах и единиц информации в актах устной речи (где вместо букв языка надо считать фонемы). А как именно считать? Ведь при устной речи, скажем в произносимых телевизионных текстах, большая часть слов из книжных словарей никогда не произносилась!

И подобным вышеупомянутому «сражению» «мусором псевдофактов» наполнено информационное пространство.

Возникает естественный вопрос, а что же такое «средняя длина слов в языке» (в частности в русском языке), как именно она определяется языковедами-филологами и возможно ли в принципе корректное определение этой «средней длины»?

Статистические сведения о лексическом составе современного письменного русского языка приводятся в частотных словарях Штейнфельд Э. А. (1963) [2],Засориной Л. Н. (1977) [3], Ляшевской О. Н. и Шарова С. А. (2009) [4]. Но, как можно понять из описания этих словарей, авторы используют в этих работах слово «статистический» не в точном математическом смысле, а в своём специфическом, гуманитарно-филологическом.

Как написано во введении к наиболее современному словарю [4], он «основан на коллекции текстов Национального корпуса русского языка, представляющей современный русский язык периода 1950–2007 годов. Объём выборки, на которой строится большинство разделов словаря, составляет 92 млн. словоупотреблений. <…> Для того чтобы корпус мог предоставить достоверные данные о частоте слов в языке, он должен быть большим по объёму и представительным по охвату материала, т.е. содержать тексты разных жанров и стилей в определённой пропорции. <…>». Анализируемый в словаре корпус русского языка включает в себя подборку современной прозы, политических мемуаров, современных газет, научно-популярной литературы и пр.

Но так как «в словаре представлен только срез всего потенциально бесконечного множества текстов, функционирующих в современном русском языке», то не понятно, как можно говорить о частоте слов русского языка, и о какой «определённой пропорции» и представительности идёт речь. Можно продолжить вопросы: как учитывались в проведённых исследованиях тиражи представленных текстов, а сколько читателей эти тексты прочитало, а сколько из них поняло (шутка).

2. О средней длине слова

Средняя длина слова на корпусе текстов частотного словаря Ляшевской О. Н. и Шарова С. А. составляет 5,28 символа, а на корпусе частотного словаря Засориной Л. Н. она составляет 5,4 символа, при этом средняя длина слова в самом словаре Засориной Л. Н. составляет 9,3 символа «за счёт первой тысячи самых частых слов, включающей те одно-, двух-, трёхбуквенные лексемы, которые влияют на среднюю длину слова в тексте».

Очевидно, что результаты исследований частоты слов существенно зависят от того корпуса текстов, который взят за основу, и если исследовать, например, тексты 10-томного Курса теоретической физики Ландау Л. Д. и Лифшица Е. М., то средняя длина слова этого учебника может значительно отличаться от вышеприведённых цифр. Да и разница в вышеприведённых цифрах двух частотных словарей (5,28 и 5,4) вызвана, по-видимому, отличием в обследованных корпусах текстов.

Справедливости ради следует сказать, что подобные расширительные трактовки математических (статистических) терминов существуют не только в лингвистике, но и в ряде «неестественных» наук: экономике, социологии, политологии, этнографии и др.

Альберт Эйнштейн говорил: «As far as the laws of mathematics refer to reality, they are not certain; and as far as they are certain, they do not refer to reality» («Это не факт, что математические теоремы отражают сущность . Но что касается их достоверности, то они не имеют отношения к действительности») [5].

Но что интересно, часто такие неоднозначные на первый взгляд трактовки, исследования имеют полезные практические приложения.

Имея словарную базу Большого словаря-справочника синонимов русского языка [6, 7], содержащего на 4 сентября 2015 года свыше 545 тыс. слов и словосочетаний (фразеологизмов, крылатых выражений, толкований и пр.)1 и 2,062 млн. синонимических связей выполним далее подсчёты, в том числе и «в среднем» по словарной базе словаря-справочника, что представляется более оправданным, чем делать выводы в целом об языке на основании выбранных для анализа текстов.

Так, группируя вместе записи (слова и словосочетания) из словаря с одинаковым числом букв (символов) и подсчитывая число записей в каждой группе, получаем таблицу № 1.

Количество букв в записях в таблицах пронумерованы, начиная с единицы и до пятидесяти, и расположены слева направо и далее сверху вниз. В таблицы помещены также результаты нормировки. Это представленные в процентах отношения всех целых чисел в клетках к их сумме. Таким образом, число клеток в таблицах удваивается, а столбцы с данными в абсолютном (числа) и относительном (проценты) виде чередуются. Заметим, что в клетке с N=50 учтены также слова большей длины.

В таблице № 1 легко увидеть вершину (максимум) распределения подсчитанного числа слов заданной длины. Это 46404 слов с длиной 11 букв, или 8,58 % всех слов, подсчитанное число которых (внизу таблицы) равно 540777, средняя длина записи (слова или словосочетания) в словаре, равна 13,25±5,90 символов на запись.

3. Измерения по всему составу словаря-справочника синонимов

Таблица № 1. Распределение по длине слова (словосочетания)

Число букв в слове (словосочетании)

Число записей

%

Число записей

%

Число записей

%

Число записей

%

Число записей

%

K =

1

2

3

4

5

N = K + 0

33

0,01

268

0,05

1944

0,36

5805

1,07

13027

2,39

N = K + 5

20035

3,68

28494

5,23

36629

6,72

42118

7,73

46221

8,48

N = K + 10

46782

8,58

45520

8,35

41047

7,53

36671

6,73

30935

5,68

N = K + 15

25710

4,72

21423

3,93

17565

3,22

14663

2,69

12356

2,27

N = K + 20

10061

1,85

8420

1,54

7141

1,31

6023

1,11

4882

0,90

N = K + 25

3978

0,73

3102

0,57

2509

0,46

1993

0,37

1607

0,29

N = K + 30

1302

0,24

1012

0,19

866

0,16

678

0,12

630

0,12

N = K + 35

514

0,09

414

0,08

364

0,07

316

0,06

267

0,05

N = K + 40

216

0,04

205

0,04

184

0,03

177

0,03

139

0,03

N = K + 45

119

0,02

100

0,02

95

0,02

120

0,02

323

0,06

Всего слов: 545003 

Некоторые выводы по всему составу словаря

  1. Максимум распределения соответствует длине слова (словосочетания), равной 11. Таких записей 8,58 %.

  2. Медиана распределения соответствует длине слова (словосочетания), равной 12. Более коротких слов (словосочетаний) 44,29 %.

  3. Слов (словосочетаний) длиннее 12 букв 47,36 %.

  4. Половина всех слов (словосочетаний) (51,16 %) находится в диапазоне 4 < N ≤ 12 букв.

  5. 1,48 % слов короче 5 букв и меньше 0,77 % слов (словосочетаний) длиннее 34 букв.

  6. Средняя длина записи (слова или словосочетания) в словаре, равная 13,25± 5,91 символов на запись.

Далее эта же несложная технология применена для случая «исключения многословия» из словаря, то есть когда исключены словосочетания, содержащие символ «пробел» внутри (более одного слова), то есть мы пренебрегаем относительно небольшим количеством устойчивых словосочетаний, приводимых в орфографических словарях как одно целое, например, «ну и ну», «а вот и нет», «в течение», «невзирая на» и т.д. Результаты в таблице № 2.

4. Измерения с фильтрацией (удалением записей с ‘ё’ и символом ‘пробел’) словаря синонимов

Таблица № 2. Распределение по длине слова

Число букв в слове

слов

%

слов

%

слов

%

слов

%

слов

%

K =

1

2

3

4

5

N = K + 0

33

0,01

268

0,06

1944

0,42

5798

1,26

12965

2,83

N = K + 5

19759

4,31

27913

6,09

35625

7,77

40746

8,89

44356

9,68

N = K + 10

44282

9,66

42487

9,27

37138

8,10

32053

6,99

25770

5,62

N = K + 15

20166

4,40

15766

3,44

11945

2,61

9206

2,01

7005

1,53

N = K + 20

5420

1,18

4230

0,92

3431

0,75

2739

0,60

2080

0,45

N = K + 25

1588

0,35

1185

0,26

850

0,19

545

0,12

383

0,08

N = K + 30

264

0,06

160

0,03

90

0,02

55

0,01

39

0,01

N = K + 35

28

0,01

13

0,00

8

0,00

7

0,00

4

0,00

N = K + 40

7

0,00

1

0,00

0

0,00

4

0,00

3

0,00

N = K + 45

1

0,00

1

0,00

0

0,00

0

0,00

3

0,00

Всего слов: 458364

4.1. Некоторые дополнительные выводы по «урезанному» словарю

  1. Количество отдельных слов в словаре-справочнике на 4.09.2015 равно 458364, что составляет чуть более 81,0 % всех записей в словаре, а 19,0 % записей являются фразеологизмами, толкованиями и т.п.

  2. Средняя длина отдельного слова в словаре-справочнике равна 11,98±4,58 букв, что меньше средней длины записи (13,25 символов) в словаре.

  3. Средняя длина существительного в словаре-справочнике равна 10,15±3,80 букв.

  4. Всего имён существительных: 229262.

  5. Средняя длина наречия в словаре-справочнике равна 9,53±3,08 букв.

  6. Всего наречий: 15459.

  7. В описываемой версии словаря-справочника все слова условно распределены на четыре группы:

    7.1 Существительные, числительные, местоимения — 229262 ( 50,02 %),

    7.2 Прилагательные, причастия, глаголы, деепричастия — 212959 ( 46,46 %),

    7.3 Наречия, сравнительные степени, сращения — 15469 ( 3,37 %),

    7.4 Частицы, предлоги, междометия и др. — 674 ( 0,15 %),

  8. Всего слов: — 458364 (100,00 %).

4.2. Некоторые данные о синонимических связях словаря-справочника (записи с буквой «Ё» удалены)2

В русском языке, согласно словарю-справочнику, слово (словосочетание) имеет в среднем 3,65 синонимов (синонимических связей) .

А синонимические связи (синонимы, квазисинонимы, фразеологизмы, толкования) имеют более 419278 слов и словосочетаний,
более 10 синонимов имеют 44771 слов и словосочетаний,
более 20 синонимов имеют 18228 слов и словосочетаний,
более 30 синонимов имеют 9084 слов и словосочетаний,
более 40 синонимов имеют 5052 слов и словосочетаний,
более 60 синонимов имеют 1887 слов и словосочетаний,
более 100 синонимов имеют 487 слов и словосочетаний,
более 200 синонимов имеют 107 слов и словосочетаний,
более 400 синонимов имеют 32 слов,
более 600 синонимов имеют 21 слов,
более 1000 синонимов имеют 11 слов.

В словаре-справочнике можно искать нужное слово по обобщённому понятию, например, запрос по слову «рыба» выдаст в алфавитном порядке список из 865 названий различных рыб, по слову «растение» — 4773, «песня» — 166, певец — 112, «музыкант» — 159, «поэт» — 86, «графоман» — 40, «девушка» — 138 (интересно, а сколько всего имеется в английском языке синонимов слова Girl? Поисковый запрос в Яндексе выдаёт 8 английских синонимов), «гриб» — 377, «столица» — 273 названия существующих и бывших столиц, «минерал» — 5655, «взрывчатка» — 234, «фермент» — 576, "частица" - 29, "элементарная частица" – 102, «богиня» — 359, милиционер — 67, «быстро» — 316, «умный» — 119, «глупый» — 239, «хороший» — 297, «плохой» — 320, «избивший» (избить) — 267, «трезвый» — 36, «выпивший» (выпить) — 358, «пьяный»3 — 348.

В словаре-справочнике имеется 300 слов, начинающихся с «нано», а в новом Большом академическом словаре таких слов имеется всего 13.

Запрос по фрагменту «вита» (слово «вита» в переводе с латинского означает «жизнь») даст 343 слов и словосочетаний, а по фрагменту «люб» (корень слова «любовь») даст 1288 слов и словосочетаний; запрос по окончанию «метрия» (от греческого слова «метрео» — «измеряю») выдаст список из названий 571 дисциплин, в которых что-то меряют, а по окончанию «логия» (от греческого слова «логос» — слово, учение) выдаст список из названий 1385 научных и квазинаучных дисциплин. Замечу, что в «Советском энциклопедическом словаре» (4-е издание, 1990 года) содержится около 200 статей о науках, направлениях и квазинауках, включающих в название элемент «‑логия».

5. Вместо заключения

В статье [7] написано, что «мощь, богатство языка определяется, по мнению автора, объёмом его словаря, а также его морфологической и синтаксической гибкостью», что «по количеству слов русский язык относится к наиболее развитым языкам мира, а по масштабу и плотности пространства синонимов (а также рифм, интонаций) ему, по мнению автора, нет равных. Использование синонимии и элементов искусственного интеллекта позволяет существенно улучшить поиск и обработку информации в компьютерных системах». Речь, конечно, идет о близких языках, потому что некорректно сравнивать английский или русский языки, например, с восточными языками с их иероглификой и тоновым произношением.

А каким образом соотносится мощь языка со средней длиной слова языка в письменном языке (как она определяется в частотных словарях), либо по всему словарю (как в данной работе)? А эти показатели могут в разных языках значительно отличаться, например, длина слов в письменном языке коренных жителей Гренландии (или современных жителей Исландии) где-то в 3 раза больше, чем у англичан.

В первом случае для передачи сложного понятия используется одно слово и, следовательно, слов в языке с длинными словами должно быть много. После того, как человек их выучит, он затрачивает мало усилий на понимание текста. В противоположном случае для этих целей используется последовательность простых и сравнительно коротких слов. Итоговая длина текста остаётся при этом практически прежней, но человеку требуется гораздо больше умственных усилий для восприятия сложных понятий, так как он должен анализировать синтаксические структуры, а не просто обращаться к своей памяти. То есть, особого преимущества языков с малой длиной слов, по-видимому, нет.

На наш взгляд, эффективность и развитость языка надо дополнительно оценивать в том числе и по его способности порождать и заимствовать новые слова и понятия. Для этой оценки и можно использовать Большой синонимический словарь-справочник.

Литература

  1. Витковский Е. В. Язык мой — друг мой, газета «Московский комсомолец», № 26594 от 9 августа 2014, http://www.mk.ru/culture/2014/08/08/yazyk-moy-drug-moy.html

  2. Штейнфельд Э. А. Частотный словарь современного русского литературного языка. — Таллин, 1963.

  3. Частотный словарь русского языка под ред. Засориной Л. Н.— М.: Русский язык, 1977. — 936 с.

  4. Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русскогоязыка). — М.: Азбуковник, 2009. — 1087 с.

  5. Цитируется по книге J. R. Newman «The World of Mathematics» (New York, 1956).

  6. Тришин В. Н. Электронный словарь-справочник синонимов русского языка системы ASIS. // в книге «Владимир Даль в счастливом доме на Пресне», М.: издательство "Academia", 2010, стр. 158–165.

  7. Тришин В. Н. Мощь русского языка по данным синонимического словаря-справочника системы ASIS. // Журнал «Вестник УМО. Экономика, Статистика и Информатика», № 6, 2013, стр. 7–13, https://www.audit-it.ru/articles/soft/a119/597862.html.

 

Приложение № 1. Список слов русского языка с длиной не менее чем 35 символов

п/п

Слово

Число символов

1

тетрагидропиранилциклопентилтетрагидропиридопиридиновые

55

2

хлоридно-гидрокарбонатно-сульфатно-натриево-магниевый

53

3

гидразинокарбонилметилбромфенилдигидробенздиазепин

50

4

метилтетрагидрофолатгомоцистеинметилтрансфераза

47

5

тысячадевятьсотвосьмидесятидевятимиллиметровый

46

6

гидрокарбонатно-сульфатно-кальциево-магниевый

45

7

сульфатно-гидрокарбонатно-кальциево-магниевый

45

8

хлопководческо-виноградарско-табачно-зерновой

45

9

метилпропенилендигидроксициннаменилакриловый

44

10

метоксихлордиэтиламинометилбутиламиноакридин

44

11

сульфатно-гидрокарбонатно-хлоридно-натриевый

44

12

сульфатно-хлоридно-гидрокарбонатно-натриевый

44

13

гипоксантин-гуанин-фосфорибозилтрансфераза

42

14

виноградарско-садоводческо-овощеводческий

41

15

гипоксантин-гуанинфосфорибозилтрансфераза

41

16

гипоталамо-гипофизарно-адренокортикальный

41

17

немецко-русско-англо-французско-испанский

41

18

палеографико-дипломатико-библиологический

41

19

тетрагидроптероилглутаматметилтрансфераза

41

20

ученый-фермер-селекционер-предприниматель

41

21

гипоталамо-лимбико-ретикуло-кортикальный

40

22

никотинамидадениндинуклеотидфосфатгидрин

40

23

префиксально-суффиксально-постфиксальный

40

24

сероводородно-азотно-углекисло-метановый

40

25

заволжско-западносибирско-казахстанский

39

26

математико-естествоведческо-медицинский

39

27

передатчик-электрокардиопреобразователь

39

28

среднесибирско-забайкальско-монгольский

39

29

токарно-фрезерно-сверлильно-строгальный

39

30

уплощенно-пинакоидально-ромбоэдрический

39

31

штукатур-облицовщик-плиточник-мозаичник

39

32

автомобиль-контейнеровоз-самопогрузчик

38

33

гипоталамо-гипофизарно-надпочечниковый

38

34

диатомово-радиоляриево-фораминиферовый

38

35

льноводческо-хмелекартофельно-зерновой

38

36

мозжечково-красноядерно-спинномозговой

38

37

политетрафторэтиленацетоксипропилбутан

38

38

сельскохозяйственно-машиностроительный

38

39

сульфатно-хлоридно-натриево-кальциевый

38

40

аденоидофарингеально-конъюнктивальный

37

41

адсорбционно-комплексообразовательный

37

42

антиимпериалистически-демократический

37

43

вокально-инструментально-танцевальный

37

44

двенадцатиперстно-подвздошно-кишечный

37

45

литературоведческо-культурологический

37

46

описательно-критико-библиографический

37

47

полукустарничково-дерновинно-злаковый

37

48

садово-виноградарско-животноводческий

37

49

судоходно-ирригационно-обводнительный

37

50

сульфатно-хлоридно-натриево-магниевый

37

51

художественно-литературно-театральный

37

52

четырехсотпятидесятисемимиллиметровый

37

53

бомбардировщик-истребитель-невидимка

36

54

бронебойно-зажигательно-трассирующий

36

55

гравитационно-электрическо-магнитный

36

56

деперсонализационно-дереализационный

36

57

западносибирско-западноказахстанский

36

58

зерново-картофельно-животноводческий

36

59

интеллектуально-эмоционально-волевой

36

60

клинико-фоноэлектрокардиографический

36

61

кобальтоникелесереброурановисмутовый

36

62

конституционально-антропометрический

36

63

машиностроительно-электротехнический

36

64

научно-консультационно-внедренческий

36

65

обогатительно-горно-металлургический

36

66

общественно-политически-нравственный

36

67

печеночно-двенадцатиперстно-кишечный

36

68

радиационно-эквивалентно-эффективный

36

69

распространительно-повествовательный

36

70

рационалистически-материалистический

36

71

революционно-интернационалистический

36

72

сельскохозяйственно-производственный

36

73

сортировочно-сплоточно-формировочный

36

74

субъективистско-иррационалистический

36

75

сульфатно-гидрокарбонатно-кальциевый

36

76

трансцендентально-феноменологический

36

77

ультравысокотемпературнообработанный

36

78

экзистенциалистско-сюрреалистический

36

79

экстракционно-спектрофотометрический

36

80

электронно-колебательно-вращательный

36

81

автомобильно-железнодорожно-морской

35

82

амплитудно-импульсно-модулированный

35

83

восточноевропейско-западносибирский

35

84

галантерейно-парфюмерно-трикотажный

35

85

гидрокарбонатно-кальциево-магниевый

35

86

гидрокарбонатно-кальциево-натриевый

35

87

гидрокарбонатно-натриево-кальциевый

35

88

гидрокарбонатно-сульфатно-натриевый

35

89

гидрокарбонатно-хлоридно-сульфатный

35

90

дактилоскопическо-идентификационный

35

91

дезоксиаденозилкобаламинтрансфераза

35

92

древнеперсидско-эламско-вавилонский

35

93

интерференционно-спектроскопический

35

94

иррационалистически-волюнтаристский

35

95

иррационалистически-интуитивистский

35

96

картофелекопатель-валкообразователь

35

97

клинико-рентгенопатоморфологический

35

98

консультативно-психотерапевтический

35

99

контрастивно-социолексикологический

35

100

метилентетрагидрофолатдегидрогеназа

35

101

механическо-химическо-биологический

35

102

обогатительно-гидрометаллургический

35

103

односторонне-интеллектуалистический

35

104

пирротин-халькопирит-пентландитовый

35

105

полупроводниково-пьезоэлектрический

35

106

превысокомногорассмотрительствующий

35

107

преобразовательно-распределительный

35

108

производственно-кинематографический

35

109

пролетарско-интернационалистический

35

110

распределительно-преобразовательный

35

111

сельскохозяйственно-технологический

35

112

словообразовательно-морфологический

35

113

сульфатно-гидрокарбонатно-натриевый

35

114

сульфатно-хлоридно-гидрокарбонатный

35

115

терригенно-карбонатно-вулканогенный

35

116

фольклорно-ритуально-мифологический

35

117

холестериново-пигментно-известковый

35

118

экспериментально-преобразовательный

35

119

экспрессивно-эмоционально-оценочный

35

Количество слов с 34 символами — 55, с 33 символами — 90, с 32 символами — 160 и т.д.

 

Приложение № 2. Список существительных русского языка с длиной более 30 символов

п/п

Слово

Число символов

1

гидразинокарбонилметилбромфенилдигидробенздиазепин

50

2

метилтетрагидрофолатгомоцистеинметилтрансфераза

47

3

метоксихлордиэтиламинометилбутиламиноакридин

44

4

гипоксантин-гуанин-фосфорибозилтрансфераза

42

5

гипоксантин-гуанинфосфорибозилтрансфераза

41

6

тетрагидроптероилглутаматметилтрансфераза

41

7

ученый-фермер-селекционер-предприниматель

41

8

никотинамидадениндинуклеотидфосфатгидрин

40

9

передатчик-электрокардиопреобразователь

39

10

штукатур-облицовщик-плиточник-мозаичник

39

11

автомобиль-контейнеровоз-самопогрузчик

38

12

политетрафторэтиленацетоксипропилбутан

38

13

бомбардировщик-истребитель-невидимка

36

14

дезоксиаденозилкобаламинтрансфераза

35

15

картофелекопатель-валкообразователь

35

16

метилентетрагидрофолатдегидрогеназа

35

17

воздухоочиститель-влагопоглотитель

34

18

гипоксантинфосфорибозилтрансфераза

34

19

лецитинхолестеринацетилтрансфераза

34

20

никотинамидадениндинуклеотидфосфат

34

21

полиндезоксирибонуклеотидсинтетаза

34

22

этаноламинфосфатцитидилтрансфераза

34

23

автомотовелофототелерадиолюбитель

33

24

глицеральдегидфосфатдегидрогеназа

33

25

полидезоксирибонуклеотидсинтетаза

33

26

валкообразователь-разбрасыватель

32

27

ортохлорбензилиденмалонодинитрил

32

28

предприниматель-производственник

32

29

растворокерамзитобетоносмеситель

32

30

электропроигрыватель-полуавтомат

32

31

автомотовелофототелерадиомонтер

31

32

ангидротетрагидрометилкриптонин

31

33

военнослужащий-интернационалист

31

34

дезодорант-антиперспирант-спрей

31

35

диметилалкилбензиламмонийхлорид

31

36

изопропил-n-3-хлорфенилкарбамат

31

37

инженер-строитель-проектировщик

31

38

картофелекопатель-валкоукладчик

31

39

корчеватель-бульдозер-погрузчик

31

40

метилентетрагидрофолатредуктаза

31

41

мультипликатор-абстракционалист

31

42

одушевленность-неодушевленность

31

43

определенность-неопределенность

31

44

панкреатохолангиорентгенография

31

45

секретарь-машинистка-переводчик

31

46

стабилизаторщик-дефибринировщик

31

47

телеуправление-телесигнализация

31

48

тетранитротетразабициклононанон

31

49

фиброэзофагогастродуоденоскопия

31

50

циклопентадиенилмагнийгалогенид

31

51

энцефаломиелополирадикулоневрит

31

52

энцефаломиелорадикулополиневрит

31

Количество слов с 30 символами — 23, с 29 символами — 26, с 28 символами — 47 и т.д.

 

Приложение № 3. Список наречий русского языка с длиной не менее чем 20 символов

п/п

Слово

Число символов

1

деликатно-предупредительно

26

2

старательно-престарательно

26

3

добровольно-принудительно

25

4

нетерпеливо-выжидательно

24

5

согласно-последовательно

24

6

видено-слышано-заезжено

23

7

внимательно-внимательно

23

8

гарантированно-свободно

23

9

по-социалдемократически

23

10

потихонечку-полегонечку

23

11

потихонечку-помаленечку

23

12

старательно-старательно

23

13

человеконенавистнически

23

14

электрокардиографически

23

15

интернационалистически

22

16

по-интернационалистски

22

17

скромным-скромнехонько

22

18

холодным-холоднехонько

22

19

внутрипрофессионально

21

20

высокопроизводительно

21

21

высокопрофессионально

21

22

говорено-переговорено

21

23

заложено-перезаложено

21

24

клиентоориентированно

21

25

малоудовлетворительно

21

26

патолого-анатомически

21

27

по-древнескандинавски

21

28

по-кинематографически

21

29

помаленьку-полегоньку

21

30

помаленьку-потихоньку

21

31

потихоньку-полегоньку

21

32

правильно-неправильно

21

33

безданно-беспошлинно

20

34

малотранспортабельно

20

35

медленно-премедленно

20

36

неотрадиционалистски

20

37

по-церковнославянски

20

38

помаловразумительнее

20

39

помаловразумительней

20

40

сверхдоброжелательно

20

41

сверхпрофессионально

20

42

собственнопряморучно

20

43

согласно-параллельно

20

44

суперпрофессионально

20

45

тоскливо-претоскливо

20

46

условно-схематически

20

47

экстралингвистически

20

Количество слов с 19 символами — 39, с 18 символами — 95, с 17 символами — 164 и т.д.


1 Учтено дублирование у 20 тыс. слов и выражений с буквой «Ё», см. [7], а всего в базе словаря-справочника свыше 565 тыс. записей.

2 всего в базе словаря-справочника свыше 2,042 млн. синонимических связей.

3 кстати, известный американский государственный деятель, дипломат, учёный Бенджамин Франклин собрал около 200 синонимов слова «пьяный» (англ. Drunk), а в книге рекордов Гиннесса говорится о том, что издательство «Делакур пресс» (Нью-Йорк) опубликовало словарь, куда вошло 1224 из 2241 синонимов состояния опьянения, собранных Полом Диксоном из Гаррет-Парка (штат Мэриленд), и т.д.