Форум города Протвино

Форум города Протвино (http://protvino-forum.ru/index.php)
-   Литература (http://protvino-forum.ru/forumdisplay.php?f=136)
-   -   Сколько слов в русском языке? (http://protvino-forum.ru/showthread.php?t=13239)

Empedocles 17.02.2016 21:59

Сколько слов в русском языке?
 
Озадачив этим вопросом Гугл, можно получить, например,
https://ru.wikipedia.org/wiki/Словарный_запас

Там утверждают, что в русском языке около 500 тыс. слов и дают такую библиографическую ссылку:
В. Пекелис «Кибернетическая смесь», М., "Знание", 1991, стр. 323-324; "IEEE Proc.", 1985, Vol.68, No.7

Ещё раньше в книге Льва Успенского «Слово о словах» (1971 г., 5-е издание) отмечается, что, «Сотрудники словарного отдела (Института языкознания в Ленинграде) полагают, что ими зарегистрировано около 400–500 тысяч разных русских слов.
http://www.audit-it.ru/articles/soft/a119/597862.html

В последнее время многие говорят и пишут, называют различные числа, и не только о русском языке. Но нигде слова и словосочетания во всём их многообразии невозможно «потрогать руками».

Такую возможность теперь предоставляет

БОЛЬШОЙ РУССКИЙ СЛОВАРЬ-СПРАВОЧНИК
СИНОНИМОВ (близких по смыслу слов)
Автор — ТРИШИН Виталий Николаевич


Его адрес: trishin.da.ru

Василий 18.02.2016 02:45

Не желая уводить разговор в сторону (словарь-то ценный), не могу удержаться, чтобы не вспомнить матроса Володю из кино "Красная площадь". Он был убеждённым анархистом и со своим звериным чутьём толпы вот как он начал одну из своих самых ярких речей:

- В русском языке имеется полтора миллиарда слов. Это вычислил ученый…
(кто-то из толпы) - Какой?
- Менделеев! Но он так и не смог определить, какие из них два слова самые дорогие. А я могу, сразу. Самые драгоценные слова — это свобода и воля!
(в воздух летят шапки, толпа ревёт от восторга)

Хорошо сделанный фильм с яркими персонажами. Понятно, что пропаганда и героизировать гражданскую войну нехорошо, а снято талантливо.

Ещё раз извините за отступление от темы.

Armageddon 18.02.2016 09:41

Даже представить невозможно, что эти слова обозначают. Большинство, наверное, не более 5 тыс. всего знают и пользуются. А на форуме за всю историю его существования и 3 тыс. не применено.

OBender 18.02.2016 09:53

Цитата:

Словарь Вильяма Шекспира, по подсчету исследователей, составляет 12 000 слов. Словарь негра из людоедского племени «Мумбо-Юмбо» составляет 300 слов.
Эллочка Щукина легко и свободно обходилась тридцатью.
.

All Eyez On Me 18.02.2016 11:33

Цитата:

Сообщение от Armageddon (Сообщение 72195)
Даже представить невозможно, что эти слова обозначают. Большинство, наверное, не более 5 тыс. всего знают и пользуются. А на форуме за всю историю его существования и 3 тыс. не применено.

Это, грубо говоря, не так. Начав учить следующий иностранный язык, например, я быстро обнаружил, что знаю около тысячи слов (в программе есть статистика изученных). Думаю, что 5 тыс. слов даже для среднего человека маловато, скорее их количество стремится к 10 тыс. Другое дело, что с пониманием смысла некоторых слов и их грамотным применением у среднего человека могут быть большие проблемы.:haha:

Armageddon 18.02.2016 13:21

Цитата:

Сообщение от All Eyez On Me (Сообщение 72202)
Это, грубо говоря, не так. Начав учить следующий иностранный язык, например, я быстро обнаружил, что знаю около тысячи слов (в программе есть статистика изученных). Думаю, что 5 тыс. слов даже для среднего человека маловато, скорее их количество стремится к 10 тыс. Другое дело, что с пониманием смысла некоторых слов и их грамотным применением у среднего человека могут быть большие проблемы.:haha:

В Википедии нашёл:
Цитата:

По современным оценкам словарный запас учащегося первого класса школы составляет 2000 слов. Человек с высшим образованием знает порядка 10 тыс. слов, эрудиты — до 50 тыс. слов
Не знаю как подсчитывается СЗ, если туда входят имена и названия, то вполне возможен словарный запас примерно до 10 тыс. слов.

Empedocles 20.02.2016 12:47

БОЛЬШОЙ РУССКИЙ СЛОВАРЬ-СПРАВОЧНИК СИНОНИМОВ (близких по смыслу слов)
 
После преодоления в течение двух дней небольших затруднений на сервере словарь обрёл в полном объёме свою функциональность и может быть рекомендован для активного использования.

Я согласен с замечанием Василия. Это действительно очень ценный словарь. Автор Виталий Николаевич Тришин, подобно Владимиру Ивановичу Далю вложил в его создание многолетний каждодневный труд.

Впечатления первых пользователей интерактивного словаря несколько омрачаются необходимостью подождать полминуты-минуту, когда сервер ответит на выданный ему поисковый запрос. Чтобы чрезмерно не испытывать терпение пользователя, выдача одноразового списка синонимов ограничена числом 40.

Это ограничение усложняет выдачу списка синонимов, где их больше 40, только у 0.9% слов. Больше 1000 синонимов (в расширенном смысле) у 9 слов. Это минерал — 5650 синонимов, растение — 4580, город — 2937, река — 2131, лекарство — 1418, рабочий — 1220, имя — 1152, препарат — 1077 и болезнь — 1022 синонимов. В среднем получается 2112 / 577 = 3.7 синонима на слово.

По мнению автора, «этот словарь практически показывает, что по количеству слов русский язык относится к наиболее развитым языкам мира, а по масштабу и плотности пространства синонимов (а также рифм, интонаций) ему нет равных».

В.И. Даль писал об отрыве письменного языка от живого русского языка: «Живой народный язык, сберегший в жизненной свежести дух, который придает языку стойкость, силу, ясность, целость и красоту, должен послужить источником и сокровищницей для развития образованной русской речи».

Данный словарь-справочник и является попыткой продолжения словаря В.И. Даля на современной живой бесцензурной языковой основе (кроме обсценной лексики).

Василий 20.02.2016 14:15

Словарь, безусловно, достоин внимания, поддержки и развития. Хотел бы призвать, однако, присмотреться к опыту более зрелых в отношении филологии культур - как они работают со словарным материалом и его организацией. В этом нет ничего зазорного, ведь русская филология - относительно молодая отрасль знания, развитие которой к тому же подверглось суровым историческим испытаниям.

В отношении конкретно синонимических словарей конкретно английского языка, могу посоветовать вот эту подборку: English language -- Synonyms and antonyms -- Dictionaries Этот список даёт представление о разнообразии и исторической глубине усилий, прилагавшихся к составлению синонимических словарей. Я не знаком со всеми словарями из этого списка, но однажды зашёл в лавочку, которая торгует б/у вещами, безделушками и книжками, и отоварился там по цене чашки кофе упомянутым в списке словарём Крэбба (Crabb's English Synonyms). Это переиздание 1966-года года обновлённого в 1916-м году издания изначального словаря, выпущенного в 1816-м году - к столетию оного. Когда совсем нечего делать или возникает желание оживить свои, по выражению Эркюля Пуаро, "маленькие клеточки серого вещества", открываю его на произвольном месте и читаю какую-нибудь статью. Статья устроена следующим образом: перечислены синонимы и близкие по смыслу слова, дана краткая справка об их происхождлении (часто старофранцузском, англосаксонском или латинском) и объяснены оттенки смысла с примером употребления того или иного синонима в той или иной ситуации. То есть это отчасти этимологический и отчасти толковый словарь - но лишь постольку, поскольку это важно для понимания оттенков смысла синонимов.

Конечно, никто не ожидает, что подобные глубокие изыскания могут быть сделаны одним или несколькими любителями русского языка. Однако, мне кажется, некоторые пояснения, почему то или иное слово в словаре считается синонимом другого слова, просто необходимы. Например, по слову "город" словарь выдаёт кучу названий городов. Действительно, пользователю словаря (которым может быть не только человек, но и машинный агент - компьютерная программа) может быть важно знать, что "Абакан" - это "город", но речь тут идёт скорее не о синонимии, а об иного рода смысловой связи. Хорошо, что эти связи в словаре есть (я ни в коем случае не призываю "вычищать" их - их наличие представляет ценность), просто этот словарь, возможно, неверно называть синонимическим - ну или только в расширительном смысле, подобно тому как в глазах пуристов и упомянутый словарь Крэбба не является строго синонимическим, но выполняет и другие функции.

Что касается производительности (времени отклика), оно может быть связано с тем, что в качестве бэк-энда используется реляционная база данных, которая даже с индексацией не вполне отвечает информационной природе словаря, не позволяет эффективно определять связи и быстро извлекать их. По роду своих занятий я последнее время присматриваюсь к графовым базам данных. Сильно подозреваю, что графовая база данных подошла бы лучше в данном случае и в отношении производительности, и в отношении гибкости определения связей между терминами; например, ребру графа можно присвоить атрибуты, что в данном случае позволит дать "объяснение", почему эти два слова суть синонимы - ну или просто именовать рёбра (иметь разные типы рёбер для разных случаев - например, тип ребра "ЯвляетсяГородом", которым можно связать узлы с метками "Абакан" и "город").

По случайному стечению обстоятельств я сейчас экспериментирую с графовой БД примерно такого же объёма (600 тысяч узлов), но более крупной по числу рёбер - их пять с лишним миллионов. Чтобы "ворочать" это хозяйство с приемлемым откликом, мне достаточно относительно скромной машины с четырёхъядерным процессором и восемью гигабайтами памяти. Движок взял на neo4j.com (бесплатную версию - community edition). Это одна из самых популярных в мире графовых БД с хорошей репутацией, множеством учебных материалов и обширным сообществом разработчиков - так что всегда найдётся у кого спросить совета. Я сам вряд ли могу внести большой вклад в приспособление словаря к графовой модели данных, но могу дать несколько начальных советов: например, как импортировать табличный (comma-separated) источник данных в граф.

В.Павлова 20.02.2016 15:58

Цитата:

Сообщение от Armageddon (Сообщение 72204)
В Википедии нашёл:
Не знаю как подсчитывается СЗ, если туда входят имена и названия, то вполне возможен словарный запас примерно до 10 тыс. слов.

Для русского языка известно, что первые по частотности 1100 слов покрывают 70% текста; понимание 70% текста достаточно для понимания текста в целом. Эти цифры справедливы с небольшими отклонениями и для других языков.

В 1977 году был выпущен "Частотный словарь русского языка" (под редакцией Л.Н.Засориной). Словарь составлялся на основе выборки в 1056 382 словоупотреблений.

Во введении отмечено: наиболее частые слова (с частотой 10 и выше на указанной выборке) составляют 23,02% всего словника, но покрывают 92,4% всего текста. Остальные 30 тысяч слов покрывают только 7,6% всей выборки.

Хотя словарный состав русского языка за 40 лет сильно изменился, актуальность этого частотного словаря сохраняется. Может быть, не больше десятка слов (советский, социалистический и пр.) перешли в заметно менее частотную группу. А слово, например, "господин" (частота – 425) даже в те времена было популярнее слова "коммунистический" (частота – 373).

Василий 20.02.2016 22:35

Была хорошая инициатива по созданию и поддержке машинного фонда русского языка, которая, к сожалению, свёрнута:

Работы по созданию Машинного фонда русского языка были начаты в 1985 г. по инициативе академика А.П. Ершова (http://ershov.iis.nsk.su/russian/), после состоявшейся в 1983 г. специальной всесоюзной конференции, материалы которой позднее были опубликованы в книге Машинный фонд русского языка: идеи и суждения, М.: Наука, 1989. Тогда же был создан отдел Машинного фонда русского языка в Институте русского языка РАН. Заведование отделом взял на себя тогдашний директор Института член-корреспондент АН СССР Ю.Н. Караулов. Под его руководством была разработана «Комплексная программа научных исследований и прикладных разработок по созданию Машинного фонда русского языка на 1996-2000 гг. и информатизации исследований в Институте русского языка АН СССР», в основу которой легли упомянутые материалы. Руководителями Отдела были последовательно член-корреспондент АН СССР Ю.Н. Караулов (1985-1991 гг.), доктор филологических наук В.М. Андрющенко (1992-1998 гг.), профессор, доктор филологических наук А.Я. Шайкевич (1998-2006 гг.). В 2006 г. Отдел был ликвидирован, работы по развитию Машинного фонда русского языка продолжаются в рамках отдела корпусной лингвистики и лингвистической поэтики.

[ Ссылка, подробности ]


Любопытно, хотя и печально отметить, что программа свёрнута в 2006-м году, когда было общее впечатление, что "жизнь налаживается". Однако для работ по созданию современных машинных продуктов, чтобы жизнь русского языка была как следует обустроена в компьютерную эпоху, средств почему-то не нашлось. Стихийное продвижение русского языка продолжается, ведь русский - второй по популярности язык Интернет. Но стихия не может решить все вопросы: в частности, квалифицироваванным филологам и сотрудничающим с ними айтишникам нужно создать достаточно удобные и достаточно просторные "экологические ниши" - чтобы не думали, чем прокормить себя и семью, а занимались любимым делом, важным для русской культуры.


Ну а статья про Машинный фонд в Википедии подсказала мне, что одним из продуктов программы была компьютерная версия «Словаря синонимов» под ред. А. П. Евгеньевой, М. Наука:1975. Он маленький, но в свободном доступе.

Владимир Аникеев 21.02.2016 21:10

Почувствовать миллион
 
Сегодня легко произносят "миллион" неважно чего.
Мне припомнились книжки Перельмана "Занимательная арифметика, физика и др." В детстве из этих книг я узнал, как почувствовать миллион, и это произвело впечатление.

см.
https://books.google.ru/books?id=5W-...%D1%83&f=false

Василий 21.02.2016 21:31

Цитата:

Сообщение от Владимир Аникеев (Сообщение 72295)
Сегодня легко произносят "миллион" неважно чего.
Мне припомнились книжки Перельмана "Занимательная арифметика, физика и др." В детстве из этих книг я узнал, как почувствовать миллион, и это произвело впечатление.

см.
https://books.google.ru/books?id=5W-...%D1%83&f=false

На самом деле, миллион почувствовать очень легко, если представить себе куб с ребром в один метр. В нём миллион кубиков по кубическому сантиметру каждый. Но это оффтопик, мы тут вообще-то про словари и их машинные версии.

Владимир Аникеев 22.02.2016 11:48

Цитата:

Сообщение от Василий (Сообщение 72300)
На самом деле, миллион почувствовать очень легко, если представить себе куб с ребром в один метр. В нём миллион кубиков по кубическому сантиметру каждый. Но это оффтопик, мы тут вообще-то про словари и их машинные версии.

Вы, Василий, пишете "представить" (воображение), а я говорил "почувствовать" (подразумевая действия и органы осязания - покрутить ручку, поставить точки на страницах). Т.о. богатство словаря в сочетании с неумением им (богатством) пользоваться может наплодить изрядное количество непоняток.
Вас последняя фраза касается значительно реже остальных форумчан (IMHO).

Василий 23.02.2016 02:25

Цитата:

Сообщение от Владимир Аникеев (Сообщение 72313)
Т.о. богатство словаря в сочетании с неумением им (богатством) пользоваться может наплодить изрядное количество непоняток.

Пугаете :-). Но мне не очень страшно, поскольку мне знакомы подходы к моделированию смысловых связей в словарях, в том числе чтобы их могли использовать компьютеры, а не только люди. Раз можно сделать так, что у компьютеров не будет непоняток, то не будет их и у людей.

В обсуждаемом словаре смысловые связи нечёткие, на что я уже указал. Я также предложил путь, как сделать их более чёткими - поименовать рёбра графа. А есть и более формальные техники, которые даже позволят машине (умеренно) рассуждать, делать выводы. Например, можно так определить термины в словаре и связи между ними, что из того, что "Протвино - город", "протвинец - житель Протвино", и "горожанин - житель города", машина сможет сделать вывод, что протвинец - это горожанин, т.е. выведет связь, которая не определена в словаре явно. Есть зрелые стандарты (рекомендации), как делать такие описания, и есть куча движков, в том числе бесплатных, которые позволяют на основании таких описаний делать несложный машинный вывод.

Уж с чем-чем, а с грамотным определением словарей в машинных форматах люди научились работать. Это не вопрос отсутствия нужных технологий (они есть, а для обсуждаемых объёмов достаточно бесплатных решений). Это просто вопрос человеческих ресурсов, чтобы сделать большой словарь с чёткой семантикой; это большой проект, который по уму должно финансировать государство или богатый меценат на протяжении нескольких лет. Мы же обсуждаем интересную любительскую разработку - если угодно, "заявку" на объёмный синонимический словарь.

Empedocles 24.02.2016 13:00

О пользе дискуссии о словаре
 
Цитата:

Сообщение от Василий (Сообщение 72257)
Была хорошая инициатива по созданию и поддержке машинного фонда русского языка, которая, к сожалению, свёрнута:

Работы по созданию Машинного фонда русского языка были начаты в 1985 г. по инициативе академика А.П. Ершова (http://ershov.iis.nsk.su/russian/), после состоявшейся в 1983 г. специальной всесоюзной конференции, материалы которой позднее были опубликованы в книге Машинный фонд русского языка: идеи и суждения, М.: Наука, 1989. Тогда же был создан отдел Машинного фонда русского языка в Институте русского языка РАН. Заведование отделом взял на себя тогдашний директор Института член-корреспондент АН СССР Ю.Н. Караулов. Под его руководством была разработана «Комплексная программа научных исследований и прикладных разработок по созданию Машинного фонда русского языка на 1996-2000 гг. и информатизации исследований в Институте русского языка АН СССР», в основу которой легли упомянутые материалы. Руководителями Отдела были последовательно член-корреспондент АН СССР Ю.Н. Караулов (1985-1991 гг.), доктор филологических наук В.М. Андрющенко (1992-1998 гг.), профессор, доктор филологических наук А.Я. Шайкевич (1998-2006 гг.). В 2006 г. Отдел был ликвидирован, работы по развитию Машинного фонда русского языка продолжаются в рамках отдела корпусной лингвистики и лингвистической поэтики.

[ Ссылка, подробности ]


Любопытно, хотя и печально отметить, что программа свёрнута в 2006-м году, когда было общее впечатление, что "жизнь налаживается". Однако для работ по созданию современных машинных продуктов, чтобы жизнь русского языка была как следует обустроена в компьютерную эпоху, средств почему-то не нашлось. Стихийное продвижение русского языка продолжается, ведь русский - второй по популярности язык Интернет. Но стихия не может решить все вопросы: в частности, квалифицироваванным филологам и сотрудничающим с ними айтишникам нужно создать достаточно удобные и достаточно просторные "экологические ниши" - чтобы не думали, чем прокормить себя и семью, а занимались любимым делом, важным для русской культуры.


Ну а статья про Машинный фонд в Википедии подсказала мне, что одним из продуктов программы была компьютерная версия «Словаря синонимов» под ред. А. П. Евгеньевой, М. Наука:1975. Он маленький, но в свободном доступе.

Василий, спасибо за своевременный призыв познакомиться с «зарубежными аналогами» синонимических словарей и подборку: English language -- Synonyms and antonyms – Dictionaries.

Выяснилось, что Оксфордский словарь был задуман (цитирую отсюда) Лондонским филологическим обществом ещё в 1857 году. Проект будущего словаря был сформулирован в 1859 году, когда было опубликовано детальное Предложение относительно публикации нового английского словаря. Редактором был назначен Джеймс Марри (7.02.1837–26.07.1915). Также над словарём работали Генри Брэдли и Уильям Крэйги.

1 февраля 1884 года начался выпуск первого издания, которое называлось «Новый английский словарь, основанный на исторических принципах» (англ. «New English Dictionary on Historical Principles», NED).

Полностью переработанное издание готовится к выпуску в 2017 году. Издание будет только в электронном виде (то есть бумажная версия выпущена не будет). В настоящее время (непонятно, это в 2016 или в 2011 году) над изданием работают 80 специалистов, которые по данным от 24 марта 2011 г. дошли до слова Ryvita.

Но это книгоиздатели. Интерактивом там и не пахнет.

Раньше начали и большего достигли в нашем понимании американцы.
Пионером оказался Ноа Уэбстер (1758—1843), автор словарей и справочников, которые уже при жизни автора играли ведущую роль на американском книжном рынке, потратил десятилетия на исследования и составление своих книг. Его первый словарь, «A Compendious Dictionary of the English Language» («Краткий словарь английского языка»), вышел в 1806 году. В нём он впервые ввёл элементы, которые стали отличительной чертой будущих изданий, такие как американское написание слов (center вместо centre, honor вместо honour, program вместо programme, etc.), и включил технические термины из наук и искусств, не ограничивая словарь литературными терминами. Последующие два десятилетия он потратил на совершенствование своего словаря.

В 1828 году, в возрасте 70 лет, Уэбстер опубликовал свой «Американский словарь английского языка» («American Dictionary of the English Language», ADEL) в двух томах in-quarto (размеры страницы составляют 24,15 × 30,5 см), который включал в себя 70 000 статей, в отличие от всех ранее изданных словарей, каждый из которых содержал не более 58 000 статей. Было напечатано всего 2 500 экземпляров.

После смерти Уэбстера (Webster) дело переиздания словаря получили Джордж и Чарльз Мерриэм (Merriam). Их деятельность продолжается и в настоящее время. На сайте их компании Мерриэм-Уэбстер реализована наша любимая функция — получение толкований введённого на этой веб-странице слова. В нашем понимании — это выдача синонимических связей. В интерактивном словаре Мерриэм-Уэбстеров, по их сообщению, более 600 тыс. слов.

Другие наследники дела Уэбстера, ребята из Принстонского университета сделали ещё лучше. У них быстро выдаётся то, что и мы понимаем под синонимами (Related Words), и много что ещё (фонетические транскрипции слов, их звучание, перевод на другие европейские языки). Ясно, что нашему наследнику «любителя» Владимира Ивановича Даля (10.11.1801–22.09.1872), подобно Безенчуку с Нимфами, конкурировать с Принстонским университетом в этом отношении нереально.

Реальная польза от дискуссии оказалась в скором устранении медленного выполнения запросов SQL в нашей реляционной базе словаря.

Чем мы хуже американцев? Ясен пень, лучше!
Наш словарь позволяет находить слова не только по их точному написанию, но и по усечённому с любой стороны фрагменту слова.

Теперь Большой русский словарь-справочник синонимов Тришина (trishin.da.ru) отзывается быстро и выдаёт полный список синонимов почти мгновенно, даже для слова минерал, у которого наибольшее число синонимов — 5650.

Empedocles 24.02.2016 13:04

Ещё раз о любителях
 
Если сравнивать Словарь "любителя" В.Даля с имеющимися на
то время словарями "профессионалов", то интересная мысль
приведена в статье Елены Жуйковой
http://chast-re4i.livejournal.com/1595.html

"Словарь содержит около 200 тысяч слов, из них 80 тысяч, по
свидетельству автора, собрано и объяснено им самим (для
остальных были использованы материалы имеющихся словарей).
Для сравнения: Академический словарь 1847 года содержал
около 115 тысяч слов. Таким образом, словарь Даля был и
остается до сих пор самым обширным словарем русского языка.

Даль сам говорил, что его словарь не соответствует
требованиям науки о словарях. Он появился, когда эта наука
не была еще достаточно разработана, типология словарей еще
не была составлена. В наши дни подобный словарь вряд ли мог
бы появиться: его тотчас бы «засушили» под предлогом
унификации или других формальных требований".

Василий 24.02.2016 14:36

Цитата:

Сообщение от Empedocles (Сообщение 72371)
Раньше начали и большего достигли в нашем понимании американцы.

Американцам надо было себя "доказать", поэтому они старались - в том числе и по части составления словарей со своими вариантами написания и словоупотребления. В общем, да, у них получилось. Но не стоит недооценивать англичан ;-). Технология технологией, но есть и другие "виды соревнований" - например, такие специфически филологические, как выбор "слова года". Большие словари пытаются выпендриться друг перед другом и найти слово хоть и популярное (или быстро набирающее популярность), но необычное, броское. Уэбстер, возможно думал, что заткнул за пояс Оксфорд и всех остальных, выбрав в качестве слова 2015 года "-ism". Оксфорд же выбрал в качестве слова 2015 года картинку-эмоджи:


Для любителя не только филологии, но и культуры в широком понимании - включая, например, политическую культуру - этот пример скажет многое о разнице "американского" и "английского" подходов, но различение этих тонкостей, конечно, далеко бы увело нас от темы обсуждения.


Цитата:

Сообщение от Empedocles (Сообщение 72371)
Теперь Большой русский словарь-справочник синонимов Тришина (trishin.da.ru) отзывается быстро и выдаёт полный список синонимов почти мгновенно, даже для слова минерал, у которого наибольшее число синонимов — 5650.

Вроде правда быстрее стал откликаться. Но у меня по-прежнему есть претензии к семантике, к сути того, что в словаре считается синонимической связью. Я уже обращал внимание на то, что, если ввести слово "город", в качестве синонимов выдаётся список, включающий в себя названия городов. Но дело обстоит ещё интереснее, поскольку если, наоборот, ввести в строку поиска название какого-нибудь города из оного списка - например, полюбившийся мне "Абакан" - то "город" в качестве синонима к нему не выдаётся. То есть словарь считает "Абакан" синонимом "города", но не считает "город" синонимом "Абакана".

Ну и, наконец, главная претензия к словарю ;-). Если спросить его "Протвино", он в ответ незамысловато выдаст опять-таки одно "Протвино". Про Серпухов, например, словарь знает больше ;-).

Empedocles 24.02.2016 17:51

Цитата:

Сообщение от Василий (Сообщение 72377)
... То есть словарь считает "Абакан" синонимом "города", но не считает "город" синонимом "Абакана".

К слову 'Абакан' словарь выдаёт выдаёт 4 синонима: 'город', 'река', 'Усть-Абаканское' и 'Хакасск' (в правом, а не в левом выпадающем меню).

Цитата:

Сообщение от Василий (Сообщение 72377)
Ну и, наконец, главная претензия к словарю ;-). Если спросить его "Протвино", он в ответ незамысловато выдаст опять-таки одно "Протвино". Про Серпухов, например, словарь знает больше ;-).

Напротив, Серпухов только город, а Протвино ещё и наукоград.

Недоразумение получилось от того, что в левом меню выводятся все найденные слова, совпадающие с введённым для поиска, если их усечь справа (по умолчанию).

Другие альтернативы усечения, а также поиск точного совпадения можно установить перед поиском здесь же выше с помощью селектора альтернатив.

В списке слов можно отмечать левым мышиным курсором другие слова и искать (клавишей 'Найти') относящиеся к ним синонимы без изменения поля для поиска слов.

А в списке синонимов можно отмечать другие синонимы. Тогда после поиска (клавишей 'Найти') без внесения других изменений уточняется число синонимов у отмеченного синонима.

Правда, чтобы получить список синонимов синонима, придётся его с клавиатуры внести в поле поиска слова и повторить поиск.

Мы - не американцы. Выпадающие меню вместо обычного вывода на веб-страницу сделаны, чтобы затруднить полное "заимствование" базы синонимических связей.

Василий 24.02.2016 22:08

Теперь яснее, как работает интерфейс. Однако меня всё равно гложет сомнение, что "Абакан" и "город" можно считать синонимами. Ведь "Протвино" и "город" тоже синонимы, согласно словарю. Тогда что, "Абакан" и "Протвино" тоже синонимы, или словарь правильно делает, что не предлагает такого, потому что синоним синонима - не обязательно синоним?

Относительно закрытости словаря: конечно, надо искать способы открыть его и сделать общественным достоянием. Было бы здорово, чтобы кто-нибудь проспонсировал это дело, равно как и привлечение профессиональных филологов к решению вопроса об адекватности синонимических связей и синонимических групп. Моё ощущение - лучше всего бы иметь больше одного типа связей для выражения разной силы, модальности или смыслового оттенка связи слов в словаре.

Empedocles 24.02.2016 23:51

Цитата:

Сообщение от Василий (Сообщение 72390)
синоним синонима - не обязательно синоним?

Вот ответ на этот вопрос автора словаря.

Василий, вы конечно правы. И автор словаря об этом же пишет
в своей статье «Мощь русского языка...»,
http://www.ocenchik.ru/docsb/1630-an...niya-asis.html

Дело в том, что сами филологи не имеют единого мнения о понятии синоним.
В узком смысле синонимами являются слова, которые могут быть взаимозаменяемыми в любых текстах. Другие филологи вводят понятие «квазисинонимы» либо синонимы в широком смысле, когда в одних предложениях слова-синонимы могут быть заменены без изменения смысла, а в других смысл предложения меняется.

Приведу две цитаты из вышеупомянутой статьи.

1) «Понятие «синоним» используется в расширенном смысле.
Нас интересует в первую очередь, являются ли взаимозаменяемыми конкретные слова в именных словосочетаниях (с сохранением хотя бы частично их смысла) или нет. Иначе говоря, улучшит ли установление синонимической связи между двумя конкретными словами качество распознавания смысла именных словосочетаний или нет при компьютерной обработке словосочетаний. А является ли данное слово точным синонимом другого слова или только смежно ему по смыслу (то, о чем часто спорят филологи) нас интересует во вторую очередь».

2) Предлагаемый словарь имеет несколько особенностей:
1. Отсутствие разделения омонимов, что приводит к тому, что в одной группе синонимов к слову, скажем, «стан» оказываются слова «лагерь», «блюминг» и «талия». Для развитого носителя языка это не представляет сложности, но для иностранца, желающего углубиться в недра русского языка, отсутствие разделения омонимов будет, конечно, представлять сложности. Это несколько ограничивает возможности применения текущей версии словаря в системах компьютерной (автоматической) обработки русских текстов.

Для того же «стана» правильно было бы иметь несколько словарных статей, например:
Стан 1 => блюминг, трубопрокатник, листопрокатник, ...
Стан 2 => становище, стойбище, станица, бивуак, лагерь, ...
Стан 3 => торс, талия, поясница, ...

В будущих версиях словаря, возможно, такое разделение будет предусмотрено, и словарь будет состоять из синонимических групп, связанных с некоторыми «понятиями», для которых останется или дать определения из толковых словарей, или выбрать среди синонимов группы так называемую «точку входа», то есть слово, наиболее точно (строго) обозначающее понятие, объединяющее данные синонимы.

2. Отсутствие разделения синонимических и родо-видовых связей. Родо-видовые (цело-частные) отношения – это, вообще говоря, предмет тезаурусов. Синонимическое отношение - это отношение эквивалентности, которое разбивает все слова на классы эквивалентности. А родо-видовое отношение - отношение частичного порядка. В идеале должна быть вкладка для синонимов, для родительских терминов и для дочерних.

Такое разделение также планируется произвести в программе словаря после завершения работы над его пополнением.
Именно поэтому автор словаря старается использовать понятие «синонимическая связь», понимая что такая cвязь не транзитивная.

Кстати, так же поступают и американцы, используя в своих словарях понятие «Related Words» вместо «Synonyms».

Владимир Аникеев 25.02.2016 22:33

В БОЛЬШОМ РУССКОМ СЛОВАРЕ-СПРАВОЧНИКЕ СИНОНИМОВ (близких по смыслу слов) Виталия Николаевича ТРИШИНА http://trishin.da.ru/
приведен соавтор - Куянов Ю.В., как я догадываюсь, сотрудник ИФВЭ. И ему мой респект.

Empedocles 26.02.2016 08:25

Цитата:

Сообщение от Владимир Аникеев (Сообщение 72428)
В БОЛЬШОМ РУССКОМ СЛОВАРЕ-СПРАВОЧНИКЕ СИНОНИМОВ (близких по смыслу слов) Виталия Николаевича ТРИШИНА http://trishin.da.ru/
приведен соавтор - Куянов Ю.В., как я догадываюсь, сотрудник ИФВЭ. И ему мой респект.

Оба соавтора будут рады доброй оценке их труда.
Важно привлечь побольше попыток воспользоваться словарём.
Это поможет выявить возможные несовершенства (неясности).

Критика принимается как на форуме, так и по адресу электронной почты.

PAS 26.02.2016 09:36

Скромняга!

И ведь ни разу не заикнулся в разговорах об этой стороне своей деятельности.

Мало того, что входит в топ - список самых цитируемых российских физиков (в 2014 году),
мало того, что пишет интереснейшие посты по музыке, а также представляет на форум уникальные документы, он еще и один из создателей такого словаря, который, может быть, прославит Протвино больше, чем некоторые другие достижения.

Пока поздравления , пожелания, если будут, позже.

Обязательно разошлю ссылку про словарь (и ссылку на статью в журнале) знакомым филологам и любителям русского языка по земному шарику.

Московский Физтех может гордиться своим выпускником!

Алексей Аржаков 26.02.2016 10:17

Цитата:

Сообщение от PAS (Сообщение 72439)
Московский Физтех может гордиться своим выпускником!

Уважаемые господа, Московский Физтех - это МФТИ https://mipt.ru/ ?:umn:

Алексей Аржаков 26.02.2016 10:21

Цитата:

Сообщение от PAS (Сообщение 72439)

Обязательно разошлю ссылку про словарь (и ссылку на статью в журнале) знакомым филологам и любителям русского языка по земному шарику.

Разрешите и мне знакомому филологу и любителю русского языка выслать ссылочку…:burglar:



«Филолог» с протвинскими боксёрами, март 2007 год…

ПЕК 26.02.2016 10:36

Цитата:

Сообщение от Владимир Аникеев (Сообщение 72428)
В БОЛЬШОМ РУССКОМ СЛОВАРЕ-СПРАВОЧНИКЕ СИНОНИМОВ (близких по смыслу слов) Виталия Николаевича ТРИШИНА http://trishin.da.ru/
приведен соавтор - Куянов Ю.В., как я догадываюсь, сотрудник ИФВЭ. И ему мой респект.

Ему, конечно, респект, но я бы хотел заступиться за Ю.В. Куянова. Как непосредственно следует из приведённой Вами ссылки, он не соавтор словаря, а соавтор бета-версии 3.3 поисковой программы. Это не одно и то же.

2 PAS: будьте любезны, укажите ссылки на "интереснейшие посты по музыке" - я стараюсь ничего не пропускать по этой теме.
И, кстати, в статье в журнале (если имеется в виду про мощь русского языка) указан только один автор - В.Н.Тришин.

Владимир Аникеев 26.02.2016 17:10

Цитата:

Сообщение от ПЕК (Сообщение 72447)
Ему, конечно, респект, но я бы хотел заступиться за Ю.В. Куянова. Как непосредственно следует из приведённой Вами ссылки, он не соавтор словаря, а соавтор бета-версии 3.3 поисковой программы. Это не одно и то же.

2 PAS: будьте любезны, укажите ссылки на "интереснейшие посты по музыке" - я стараюсь ничего не пропускать по этой теме.
И, кстати, в статье в журнале (если имеется в виду про мощь русского языка) указан только один автор - В.Н.Тришин.

Кто бы спорил по приведенной ссылке, но есть статья
Ю. В. Куянов и В. Н. Тришин "Количественный анализ Большого словаря-справочника синонимов русского языка" // Журнал «Научное обозрение: гуманитарные исследования», №9, 2015, из которой (порядок авторов) есть основания говорить о соавторстве Куянова в дальнейшей работе над Словарем. Большой русский словарь-справочник синонимов защищен авторским правом (свидетельство о государственной регистрации №2013616013) - я не искал ссылку на этот документ. Скорее всего автор один - Тришин.

able 26.02.2016 17:17

Цитата:

Сообщение от Генералиссимус (Сообщение 72445)
Разрешите и мне знакомому филологу и любителю русского языка выслать ссылочку…:burglar:



«Филолог» с протвинскими боксёрами, март 2007 год…

Знакомством с таким "филологом" надо бы стыдиться, а не гордиться. Да еще герб ЕР прикрутили, тьфу!

Empedocles 26.02.2016 18:29

Цитата:

Сообщение от PAS (Сообщение 72439)
Скромняга!

И ведь ни разу не заикнулся в разговорах об этой стороне своей деятельности.

«Заикаться» до того, как получится, было бы совсем неправильно.

Был использован предыдущий опыт на сайте Академии инженерных наук имени А.М. Прохорова (База данных АИН), где объём реляционной базы данных чуть больше 1000 записей. Здесь же в 500 раз больше (если ограничиться только словами и не учитывать около 2 миллионов синонимических связей).

Это трудная и очень интересная задача, для решения которой создана нетривиальный и не поддельный программный комплекс с применением IT-технологий и языков программирования: Java, php, SQL, html и JavaScript и др., что обеспечивает надёжное преобразование словарной базы из персонального «станка» Тришина в соответствующую для веб-реализации форму и затем быструю загрузку на сервер обновлённого варианта. Пока это Know how. Возможно, в будущем будет опубликовано.

Цитата:

Сообщение от PAS (Сообщение 72439)
... входит в топ - список самых цитируемых российских физиков (в 2014 году)...

В 2016 году тоже входит.

Empedocles 26.02.2016 18:30

Цитата:

Сообщение от Генералиссимус (Сообщение 72444)
Уважаемые господа, Московский Физтех - это МФТИ https://mipt.ru/ ?:umn:

Да


Часовой пояс GMT +3, время: 19:52.

vBulletin v3.6.2, Copyright ©2000-2020, Jelsoft Enterprises Ltd.
Русский перевод: zCarot, Vovan & Co
Администрация форума не несет ответственности за содержание сообщений на форуме.