?

Log in

No account? Create an account

Previous Entry | Next Entry

Лет пять назад любимой, тогда еще аспиранту, а не кандидату наук понадобились для диссертации результаты контент-анализа ряда текстов по социализации детей и подростков. Найти такие результаты готовыми было нереально, поэтому любимая решила проделать  контент-анализ сама. Тут же выяснилось что "ручками" это не проделаешь (ну то есть не за разумный промежуток времени), а программки для контент-анализа стоят много тысяч долларов -- самое дешевое из того что мы нашли начиналась по-моему от пяти тыщ "зеленых". Тогда я вспомнил, что я вроде как тоже программист, что "не боги горшки обжигают", сел и за пару-тройку недель накатал нечто, вполне способное за такую программку сойти. Любимая ею воспользовалась, получила нужные результаты, вставила их в диссертацию, а программка с тех пор благополучно валяется у меня на диске

Так вот, чтобы она совсем не пропала,  решил я ее использовать в пропагандистско -политических целях. А именно -- провести контент-анализ современных российских новостей.

Для тех кто не знает, что такое контент-анализ -- краткий ликбез. В Википедии написано -- "количественный анализ текстов и текстовых массивов с целью последующей содержательной интерпретации выявленных числовых закономерностей." Что это значит и как это делается? Берется большой массив текстов -- скажем несколько сотен статей или (ближе к тематике поста) несколько тысяч новостных сообщений. Они загоняются в компутер, разбиваются на слова, слова приводятся к единой словоформе (проще говоря убираются число, род и падеж)  и подсчитывается частота использования каждой словоформы -- сколько раз она встречается всего и сколько в каждом тексте.  Затем создаются определнные смысловые группы -- категории и к каждой из категорий "прикрепляется " определенный набор словоформ. Скажем, к категории  "Военные действия" можно отнести слова "война, боевой, бомбардировка, вылет, войска, оружие...". К категории  "Экономика" можно отнести слова "ВВП, доходы, учетная ставка, кредиты, капитал, налоги...". К категории "Власть"... Ну в общем идею вы поняли.

Дальше считаются частоты категорий и ищутся корреляции этих частот друг с другом в различных текстах. Корреляция -- это взаимозависимость, которая возможно скрыта даже от автора текста. но которая при этом тем не менее присутствует. Скажем, если в 75% текстов частота категории "Военные действия" прямо пропорциональна частоте категории "Соединенные Штаты Америки" значит в коллективном бессознательном  авторов (хотя может быть и во вполне сознательном) тема войны напрямую связана с темой США. Дальше можно провести еще кластерный анализ, выявить наиболее устойчивые кластеры смысловых связей, но это уже совсем высшая математика. Вернемся к нашим баранам.... то есть новостям.

Сам анализ я  хочу проделать за следующую неделю и сразу же по окончанию же и опубликую. А пока хочу немного пованговать. Как говорил один из героев Марка Твена "ставлю весь мир против старых носков"  что первой по частоте категорией будет категория "Военные действия", а категория "Экономика"  либо вообще не попадет  в первую пятерку категорий по частоте, либо в лучшем случае займет последнее, пятое  место. Вот предполагаемый список категорий

  • Власть

  • В. Путин (для понимания: Путин -- это не власть, Путин -- это сейчас в России фигура мистическая)

  • Военные действия

  • Здравоохранение

  • Криминал

  • Культура и зрелища

  • Наука и технологии

  • Потребление

  • Религия

  • Семья и семейные ценности

  • Спорт

  • США и Западная Европа

  • Терроризм

  • Экономика и производство

Ну, кто готов на  пари?

 
promo torin_kr декабрь 5, 2015 19:43 26
Buy for 200 tokens
Этот пост -- заказной. Меня его попросила написать одна моя хорошая знакомая, с которой мы знакомы такое количество лет. что аж страшно становится. Как говорит в таких случаях мой младший брат -- "Да ну нафиг. Столько и не живут". Живут... к сожалению. Ладно, это было лирическое…

Comments

( 10 comments — Leave a comment )
mcon
Nov. 21st, 2015 08:35 pm (UTC)
На пари не готов,
Но результат интересен. Только одно замечание- ведь новости отражают во многом не некое коллективное бессознательное, а скорее вполне конкретные смысловые программы, которыми новости наполняются вполне осознанно. Соответственно, контент-анализ новостей отразит скорее актуальный набор таких программ, если угодно, пропагандистских штампов, а не реальные чаяния людей с их сознательным и бессознательным.
torin_kr
Nov. 21st, 2015 09:03 pm (UTC)
Re: На пари не готов,
Согласен, но это тоже интересно и важно. То есть первое место "войны" в новостях (если оно будет) -- это такой заказ "власть имущих"...
a_spyd
Nov. 21st, 2015 09:04 pm (UTC)
Вопрос:
"современных российских новостей" -- каких именно источников? Только ТВ или Интернет тоже? А если только ТВ -- одни лишь "федеральные" каналы или вместе с РБК и российским Евроньюс?
Думаю, результаты будут значимо отличаться.
torin_kr
Nov. 21st, 2015 09:08 pm (UTC)
Re: Вопрос:
Ну ТВ вряд ли -- мне же тексты нужны. Так что видимо новостные ленты основных агентств -- ТАСС, РСН, РИА Новости, РБК, Интерньюс...
a_spyd
Nov. 21st, 2015 09:29 pm (UTC)
Re: Вопрос:
Что же, старые носки поставить соглашусь.
А если к экономике Вы отнесёте ещё санкции, готов рискнуть и новыми :)
skadi_omsk
Nov. 22nd, 2015 04:10 am (UTC)
А какое ограничение по времени? Если брать последние недели, то вверх вылезет групп "дальнобойщики-дороги-плата-платон-штрафы". Или эта тема подвинет вверх группу "Экономика", в которую входит и "Власть" (в связи с Роттенбергами).
torin_kr
Nov. 22nd, 2015 08:17 am (UTC)
ну чтобы убрать вот такие "временные сдвиги" надо брать хотя бы месяц...
Ирина Зыкова
Nov. 22nd, 2015 01:11 pm (UTC)
вангую, что все упомянутые темы перекроет тема нового года :)
torin_kr
Nov. 22nd, 2015 01:14 pm (UTC)
Я хитрый -- я возьму новости за октябрь...
comprachikos
Nov. 22nd, 2015 07:32 pm (UTC)
ставлю на "Власть".
затем
Путин
Военные действия

экономика, здравоохранение - на последних местах.
( 10 comments — Leave a comment )