You are viewing [info]jarwhite's journal

Previous Entry | Next Entry


Недавно я писал о программе для автоматического поиска упоминаний на ТВ. Демонстрационная версия сильно ограниченна в возмоностях анализа, а сейчас я выложил несколько графиков построенных на реальном корпусе текстов за февраль 2010 года.

Что видим на графиках? Первый график - почасовая динамика упоминания Д.А. Медведева на центральных каналах Российского ТВ в феврале. Для каждого часа, каждого дня, в течении месяца рассчитывается количество упоминаний президента. Ну что не плохо - 15 упоминаний в час в прайм-тайм? Не плохо. Кстати... если не хотите наткнуться на сюжет о политике, смотрите телевизор с час ночи до двух и с трех до четырех - гарантированно не наткнетесь.




Давайте посмотрим, а отличается ли некоторая степень информационного давления на наши головы в зависимости от того выходной ли сегодня день. Вот как раз второй график это и показывает. В выходные отсутствует первый пик с 5 до 8 часов утра, что вполне логично, в выходные утром все спят и нет смысла тратится на новостные программы. Основные темы новостей, как в будние дни, так и выходные формируются уже к 12-13 часам и получат дальнейшее развитие к 16. Пик информационной активности 18 часов в будни и 19-21 в выходные.

Ради интереса, давайте сравним почасовую динамику упоминаемости президента и премьер-министра РФ на телевидении... Что мне показалось интересным на графике 3 и 4 - прежде всего то, что эти графики по своей форме практически одинаковы с вариациями в количестве упоминаний. Причем, я хочу обратить Ваше внимание на то, что графики составлены на основании данных 5 ТВ каналов, а не одного..

Для чего собственно все это нужно и причем тут тренды? Сейчас мы решаем задачу автоматического определения и прогнозирования тем, актуальных для текущего состояния информационного поля. Есть такая гипотеза, что упоминание доминирующей темы не подчиняется нормальному закону распределения. Некоторой иллюстрацией этой гипотезы служит приведенная ниже табличка.

Так, например, появление 9-19 упоминаний в течении часа при нормальном значении 0-1 с большой вероятностью будет указывать на возникновение мощного информационного повода. Как известно любой информационный повод характеризуется тремя ответами на вопросы - "Что?", "Где?", "Кто?" и дополнительным указанием "Когда" . Для существующих технологий практически невозможно распознать упоминание ответа на вопрос "Что?" , однако ответы на оставшиеся вопросы "Где?" и "Кто?" распознаются весьма успешно.
В идеале хочется создать некоторое инструментальное средство, автоматические, без каких либо дополнительных настроек, определяющее основные темы дня и строящее автореферат этих тем. Когда и, что из этого получится пока не очень понятно, но я работаю над этой проблемой :-)
  • 5 comments
  • Leave a comment
  • Add to Memories

Comments

( 5 comments — Leave a comment )
[info]gerdaberger wrote:
Mar. 11th, 2010 11:31 am (UTC)
очень интересно) впрочем, как всегда. Но все-таки букву Х нужно добавить. А то на канала, на канала...
[info]andyceo.ruware.com wrote:
Mar. 12th, 2010 05:18 pm (UTC)
ООО, jarwhite, вы сделали то, о чем я думаю уже года 3-4 :) Вы молодец! Успеха вам в вашем начинании! Возможно ли присоединиться к вашему проекту в качестве разработчика?
[info]jarwhite wrote:
Mar. 12th, 2010 07:15 pm (UTC)
Давайте пообщаемся. Написал Вам в личку.
[info]ferma wrote:
Mar. 12th, 2010 05:37 pm (UTC)
как бы забанить путина в интернете чтобы не читаьт про него и рожу его не видеть? :)
[info]slawan wrote:
Mar. 13th, 2010 03:39 am (UTC)
Интересный труд! Одобряю! Систематизировать работу зомбоящика бывает иногда очень полезно.
( 5 comments — Leave a comment )

Latest Month

November 2011
S M T W T F S
  12345
6789101112
13141516171819
20212223242526
27282930   

Tags

Powered by LiveJournal.com
Designed by Lilia Ahner