torin_kr (torin_kr) wrote,
torin_kr
torin_kr

Categories:

Про политику -- про новости и контент-анализ

Лет пять назад любимой, тогда еще аспиранту, а не кандидату наук понадобились для диссертации результаты контент-анализа ряда текстов по социализации детей и подростков. Найти такие результаты готовыми было нереально, поэтому любимая решила проделать  контент-анализ сама. Тут же выяснилось что "ручками" это не проделаешь (ну то есть не за разумный промежуток времени), а программки для контент-анализа стоят много тысяч долларов -- самое дешевое из того что мы нашли начиналась по-моему от пяти тыщ "зеленых". Тогда я вспомнил, что я вроде как тоже программист, что "не боги горшки обжигают", сел и за пару-тройку недель накатал нечто, вполне способное за такую программку сойти. Любимая ею воспользовалась, получила нужные результаты, вставила их в диссертацию, а программка с тех пор благополучно валяется у меня на диске

Так вот, чтобы она совсем не пропала,  решил я ее использовать в пропагандистско -политических целях. А именно -- провести контент-анализ современных российских новостей.

Для тех кто не знает, что такое контент-анализ -- краткий ликбез. В Википедии написано -- "количественный анализ текстов и текстовых массивов с целью последующей содержательной интерпретации выявленных числовых закономерностей." Что это значит и как это делается? Берется большой массив текстов -- скажем несколько сотен статей или (ближе к тематике поста) несколько тысяч новостных сообщений. Они загоняются в компутер, разбиваются на слова, слова приводятся к единой словоформе (проще говоря убираются число, род и падеж)  и подсчитывается частота использования каждой словоформы -- сколько раз она встречается всего и сколько в каждом тексте.  Затем создаются определнные смысловые группы -- категории и к каждой из категорий "прикрепляется " определенный набор словоформ. Скажем, к категории  "Военные действия" можно отнести слова "война, боевой, бомбардировка, вылет, войска, оружие...". К категории  "Экономика" можно отнести слова "ВВП, доходы, учетная ставка, кредиты, капитал, налоги...". К категории "Власть"... Ну в общем идею вы поняли.

Дальше считаются частоты категорий и ищутся корреляции этих частот друг с другом в различных текстах. Корреляция -- это взаимозависимость, которая возможно скрыта даже от автора текста. но которая при этом тем не менее присутствует. Скажем, если в 75% текстов частота категории "Военные действия" прямо пропорциональна частоте категории "Соединенные Штаты Америки" значит в коллективном бессознательном  авторов (хотя может быть и во вполне сознательном) тема войны напрямую связана с темой США. Дальше можно провести еще кластерный анализ, выявить наиболее устойчивые кластеры смысловых связей, но это уже совсем высшая математика. Вернемся к нашим баранам.... то есть новостям.

Сам анализ я  хочу проделать за следующую неделю и сразу же по окончанию же и опубликую. А пока хочу немного пованговать. Как говорил один из героев Марка Твена "ставлю весь мир против старых носков"  что первой по частоте категорией будет категория "Военные действия", а категория "Экономика"  либо вообще не попадет  в первую пятерку категорий по частоте, либо в лучшем случае займет последнее, пятое  место. Вот предполагаемый список категорий

  • Власть

  • В. Путин (для понимания: Путин -- это не власть, Путин -- это сейчас в России фигура мистическая)

  • Военные действия

  • Здравоохранение

  • Криминал

  • Культура и зрелища

  • Наука и технологии

  • Потребление

  • Религия

  • Семья и семейные ценности

  • Спорт

  • США и Западная Европа

  • Терроризм

  • Экономика и производство

Ну, кто готов на  пари?

 
Tags: Про политику
Subscribe
promo torin_kr april 3, 20:29 102
Buy for 100 tokens
Все больше россиян опасаются не только коронавируса, но и увольнения из-за эпидемиологического кризиса, говорится в материалах Национального агентства финансовых исследований (НАФИ). Почти половина (42%) опрошенных, оставшись без работы, не смогут протянуть и месяца без займов. Еще 26% отвечают,…
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 10 comments