Недавно я писал о программе для автоматического поиска упоминаний на ТВ. Демонстрационная версия сильно ограниченна в возмоностях анализа, а сейчас я выложил несколько графиков построенных на реальном корпусе текстов за февраль 2010 года.

Что видим на графиках? Первый график - почасовая динамика упоминания Д.А. Медведева на центральных каналах Российского ТВ в феврале. Для каждого часа, каждого дня, в течении месяца рассчитывается количество упоминаний президента. Ну что не плохо - 15 упоминаний в час в прайм-тайм? Не плохо. Кстати... если не хотите наткнуться на сюжет о политике, смотрите телевизор с час ночи до двух и с трех до четырех - гарантированно не наткнетесь.

Давайте посмотрим, а отличается ли некоторая степень информационного давления на наши головы в зависимости от того выходной ли сегодня день. Вот как раз второй график это и показывает. В выходные отсутствует первый пик с 5 до 8 часов утра, что вполне логично, в выходные утром все спят и нет смысла тратится на новостные программы. Основные темы новостей, как в будние дни, так и выходные формируются уже к 12-13 часам и получат дальнейшее развитие к 16. Пик информационной активности 18 часов в будни и 19-21 в выходные.

Ради интереса, давайте сравним почасовую динамику упоминаемости президента и премьер-министра РФ на телевидении... Что мне показалось интересным на графике 3 и 4 - прежде всего то, что эти графики по своей форме практически одинаковы с вариациями в количестве упоминаний. Причем, я хочу обратить Ваше внимание на то, что графики составлены на основании данных 5 ТВ каналов, а не одного..

Для чего собственно все это нужно и причем тут тренды? Сейчас мы решаем задачу автоматического определения и прогнозирования тем, актуальных для текущего состояния информационного поля. Есть такая гипотеза, что упоминание доминирующей темы не подчиняется нормальному закону распределения. Некоторой иллюстрацией этой гипотезы служит приведенная ниже табличка.

Так, например, появление 9-19 упоминаний в течении часа при нормальном значении 0-1 с большой вероятностью будет указывать на возникновение мощного информационного повода. Как известно любой информационный повод характеризуется тремя ответами на вопросы - "Что?", "Где?", "Кто?" и дополнительным указанием "Когда" . Для существующих технологий практически невозможно распознать упоминание ответа на вопрос "Что?" , однако ответы на оставшиеся вопросы "Где?" и "Кто?" распознаются весьма успешно.
В идеале хочется создать некоторое инструментальное средство, автоматические, без каких либо дополнительных настроек, определяющее основные темы дня и строящее автореферат этих тем. Когда и, что из этого получится пока не очень понятно, но я работаю над этой проблемой :-)
Что видим на графиках? Первый график - почасовая динамика упоминания Д.А. Медведева на центральных каналах Российского ТВ в феврале. Для каждого часа, каждого дня, в течении месяца рассчитывается количество упоминаний президента. Ну что не плохо - 15 упоминаний в час в прайм-тайм? Не плохо. Кстати... если не хотите наткнуться на сюжет о политике, смотрите телевизор с час ночи до двух и с трех до четырех - гарантированно не наткнетесь.
Давайте посмотрим, а отличается ли некоторая степень информационного давления на наши головы в зависимости от того выходной ли сегодня день. Вот как раз второй график это и показывает. В выходные отсутствует первый пик с 5 до 8 часов утра, что вполне логично, в выходные утром все спят и нет смысла тратится на новостные программы. Основные темы новостей, как в будние дни, так и выходные формируются уже к 12-13 часам и получат дальнейшее развитие к 16. Пик информационной активности 18 часов в будни и 19-21 в выходные.
Ради интереса, давайте сравним почасовую динамику упоминаемости президента и премьер-министра РФ на телевидении... Что мне показалось интересным на графике 3 и 4 - прежде всего то, что эти графики по своей форме практически одинаковы с вариациями в количестве упоминаний. Причем, я хочу обратить Ваше внимание на то, что графики составлены на основании данных 5 ТВ каналов, а не одного..
Для чего собственно все это нужно и причем тут тренды? Сейчас мы решаем задачу автоматического определения и прогнозирования тем, актуальных для текущего состояния информационного поля. Есть такая гипотеза, что упоминание доминирующей темы не подчиняется нормальному закону распределения. Некоторой иллюстрацией этой гипотезы служит приведенная ниже табличка.
Так, например, появление 9-19 упоминаний в течении часа при нормальном значении 0-1 с большой вероятностью будет указывать на возникновение мощного информационного повода. Как известно любой информационный повод характеризуется тремя ответами на вопросы - "Что?", "Где?", "Кто?" и дополнительным указанием "Когда" . Для существующих технологий практически невозможно распознать упоминание ответа на вопрос "Что?" , однако ответы на оставшиеся вопросы "Где?" и "Кто?" распознаются весьма успешно.
В идеале хочется создать некоторое инструментальное средство, автоматические, без каких либо дополнительных настроек, определяющее основные темы дня и строящее автореферат этих тем. Когда и, что из этого получится пока не очень понятно, но я работаю над этой проблемой :-)

Comments