schegloff (schegloff) wrote,
schegloff
schegloff

Category:

Мир российской фантастики глазами анализатора текстов

Развивая свой анализатор текстов, добрался до сравнительного анализа частот словоупотреблений. Предположил, что на вопрос "О чем этот текст" можно легко ответить, если сравнить частоты топ-50 слов в тексте с их же частотами в "текстах вообще". Ниже представлена проверка этого предположения.

Итак, о чем у нас российская фантастика? В качестве текста "российская фантастика" использовались результаты 2009 года, когда я составлял карту-схему российской фантастики (саму карту-схему уже не увидеть, потерялась куда-то в Сети). 117 произведений последних лет, по одному самому популярному от более чем 100 авторов (от Лукьяненко до Ляха). В сумме получился 9-мегабайтный файл с 13 миллионами словоупотреблений.

В качестве словаря частот "текстов вообще" я использовал словарь А.П. Шарова, любезно выложенный им в открытый доступ. Вычел из "фантастического" списка первые 10000 слов Шарова (обнаружив при это, что текст-анализаторы у нас разные, мой считает "что-то" за одно слово, шаровский за "что" и "то"), и получил такие вот показательные результаты:

1. Топ-10 "самых частых фантастических" слов
Условие: встречаются в фантастических текстах более чем в 2 раза чаще, чем в обычных. Числа: словоупотреблений на миллион у Шарова и в фантастике, процент превышения.

да 1089,96 2491,84742 128,6182447
ну 305,82 1370,691381 348,2020079
впрочем 87,13 386,5739926 343,6749599
кивнул 131,49 370,4159314 181,7065415
однако 220,45 458,2182262 107,8558522
похоже 85,83 319,4265778 272,1619222
ладно 99,94 321,7130959 221,9062397
меч 36,51 242,2184835 563,4305218
сэр 37,36 236,6546228 533,4438512
маг 10,58 184,5220103 1644,064369

Готовое пособие для МТА, не правда ли? :)

2. Топ-10 "самых фантастических" слов
Условие: встречаются в фантастических текстах чаще 100 слов на миллион, и имеют максимальное процентное отклонение от обычного словаря.

маг 10,58 184,5220103 1644,064369
мрак 10,45 152,0534533 1355,056969
леди 16,13 119,6611136 641,8543932
глава 23,25 164,9341719 609,3942878
меч 36,51 242,2184835 563,4305218
князь 19,86 129,7217932 553,1812349
сэр 37,36 236,6546228 533,4438512
принц 18,35 106,780395 481,9095097
де 42,26 197,0978598 366,3934211
неужели 32,33 149,1571971 361,3584814

Судя по приставке "де", вся наша фантастика выросла из "Трех мушкетеров".

3. Топ-10 "только фантастических" слов
Условие: не встречаются в топ-10000 обычных текстов, и не являются артефактом разности текст-анализаторов, процентное отклонение бесконечно, и не указывается.

олег 0 291,226188
порнов 0 176,9765005
сигизмунд 0 171,6412917
кенет 0 166,9158209
валентин 0 166,4585173
сильвер 0 161,8854811
никки 0 159,4465285
волкодав 0 150,9864115
эль 0 149,4620661
михаил 0 143,8982054

Только одно слово не имя собственное - эль. Так что с днем Святого Патрика, братья-писатели!

P.S. Кто такие Порнов и Валентин, я знаю, а вот чей персонаж Сигизмунд?!
Subscribe

  • Цитата дня: что есть истина

    Восприятие мира таким, как он есть, НЕ является эволюционным преимуществом, а, наоборот, вредит выживанию. Эволюция поддерживает не "правильное"…

  • Цитата дня: позор какой-то, а не коррупция

    Расследование ВБ показало сознательное и некорректное улучшение в 2018 году рейтинга DB Китая, в 2020 году — Саудовской Аравии и ухудшение в 2020…

  • Цитата дня: мы не туда попали

    Годы назад меня удручал пессимизм поздних произведений Станислава Лема, который на протяжении всей жизни был для меня примером относительно светлого…

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 20 comments

  • Цитата дня: что есть истина

    Восприятие мира таким, как он есть, НЕ является эволюционным преимуществом, а, наоборот, вредит выживанию. Эволюция поддерживает не "правильное"…

  • Цитата дня: позор какой-то, а не коррупция

    Расследование ВБ показало сознательное и некорректное улучшение в 2018 году рейтинга DB Китая, в 2020 году — Саудовской Аравии и ухудшение в 2020…

  • Цитата дня: мы не туда попали

    Годы назад меня удручал пессимизм поздних произведений Станислава Лема, который на протяжении всей жизни был для меня примером относительно светлого…