Rom165, 30.11.2016 19:50
—
развернуть
29 ноября 2016. По данным поиска Яндекса
Сто пятьдесят лет назад был впервые полностью опубликован словарь Даля . Он прославился как словарь именно живого, повседневного языка, на котором говорили в России в середине XIX века. Мы решили посмотреть, насколько сильно с тех пор изменился язык, и сравнили слова из словаря Даля с теми, которые используют люди в поисковых запросах.
За год Яндекс отвечает примерно на 70 миллиардов запросов из России. Если по пробелам и специальным символам разделить эти запросы на словоформы, выбрать только те, которые состоят из кириллических букв, и автоматически привести их к начальной форме, получается больше 285 миллионов разных слов. На самом деле далеко не все из них настоящие русские слова: в поиске люди часто пишут с ошибками — [детский мир отзовы], [турагенство] — и в неправильной раскладке — [нщгегиу], а иногда просто вводят непонятные последовательности букв — [аааааааааааааау].
Чтобы сделать этот огромный список слов чище, мы сравнили его со словами из Национального корпуса русского языка за XX и XXI века. Пересечений оказалось всего около 750 тысяч. Можно сказать, что это слова, которые употребляются в современных текстах разных жанров — от художественной литературы до деловых документов.
Даль даёт толкование примерно двухсот тысяч слов. Из них почти одна пятая (18%) за год ни разу не встретилась в поисковых запросах к Яндексу. Примерно 38% слов упоминались в запросах, но отсутствовали в корпусе русского языка. В пересечение поиска и корпуса попали 44% слов.
18% слов из словаря Даля можно считать полностью вышедшими из употребления: в течение года люди ничего не искали с помощью этих слов и даже не спрашивали про их значение.
С двумя другими группами слов всё не так просто. Можно предположить, что та часть словаря Даля, которая есть и в поисковых запросах, и в текстах из корпуса русского языка (44%), — это живые слова. А 38%, которые есть в поиске, но отсутствуют в корпусе, — уходящие: их уже не используют в письменной речи, но иногда ищут в интернете. С другой стороны, вряд ли можно назвать живым слово, которое есть в письменных текстах, но встречается в запросах всего несколько раз в год, или слово, которое вводят в поиск только для того, чтобы узнать значение.
Примерно треть слов из словаря Даля (32%) распространены до сих пор. Ещё чуть меньше 30% — используются, но крайне мало, треть из них — только при поиске значений. Почти 40% слов, или полтора тома всего словаря Даля, полностью вышли из употребления.

вырезано
ЗЫ От себя. Я вот еще помню когда входу были слова гривенник, червонец и пятиалтынный. Последней монеты сейчас нет уже и физически.
Сто пятьдесят лет назад был впервые полностью опубликован словарь Даля . Он прославился как словарь именно живого, повседневного языка, на котором говорили в России в середине XIX века. Мы решили посмотреть, насколько сильно с тех пор изменился язык, и сравнили слова из словаря Даля с теми, которые используют люди в поисковых запросах.
За год Яндекс отвечает примерно на 70 миллиардов запросов из России. Если по пробелам и специальным символам разделить эти запросы на словоформы, выбрать только те, которые состоят из кириллических букв, и автоматически привести их к начальной форме, получается больше 285 миллионов разных слов. На самом деле далеко не все из них настоящие русские слова: в поиске люди часто пишут с ошибками — [детский мир отзовы], [турагенство] — и в неправильной раскладке — [нщгегиу], а иногда просто вводят непонятные последовательности букв — [аааааааааааааау].
Чтобы сделать этот огромный список слов чище, мы сравнили его со словами из Национального корпуса русского языка за XX и XXI века. Пересечений оказалось всего около 750 тысяч. Можно сказать, что это слова, которые употребляются в современных текстах разных жанров — от художественной литературы до деловых документов.
Даль даёт толкование примерно двухсот тысяч слов. Из них почти одна пятая (18%) за год ни разу не встретилась в поисковых запросах к Яндексу. Примерно 38% слов упоминались в запросах, но отсутствовали в корпусе русского языка. В пересечение поиска и корпуса попали 44% слов.
18% слов из словаря Даля можно считать полностью вышедшими из употребления: в течение года люди ничего не искали с помощью этих слов и даже не спрашивали про их значение.
С двумя другими группами слов всё не так просто. Можно предположить, что та часть словаря Даля, которая есть и в поисковых запросах, и в текстах из корпуса русского языка (44%), — это живые слова. А 38%, которые есть в поиске, но отсутствуют в корпусе, — уходящие: их уже не используют в письменной речи, но иногда ищут в интернете. С другой стороны, вряд ли можно назвать живым слово, которое есть в письменных текстах, но встречается в запросах всего несколько раз в год, или слово, которое вводят в поиск только для того, чтобы узнать значение.
Примерно треть слов из словаря Даля (32%) распространены до сих пор. Ещё чуть меньше 30% — используются, но крайне мало, треть из них — только при поиске значений. Почти 40% слов, или полтора тома всего словаря Даля, полностью вышли из употребления.


ЗЫ От себя. Я вот еще помню когда входу были слова гривенник, червонец и пятиалтынный. Последней монеты сейчас нет уже и физически.