Московский государственный университет им. М. В. Ломоносова Факультет журналистики Кафедра новых медиа и теории коммуникаций Журналистика данных Дипломная работа Студента VI курса вечернего отделения Д.М. ДЫМШИЦА Научный руководитель: Кандидат филологических наук (доцент) И.И. ЗАСУРСКИЙ Москва, 2014 Оглавление Введение .................................................................................................................................................3 Глава 1. Использование данных в журналистике. ...............................................................6 1.1. Понятие журналистики данных, история появления и развития этой формы журналистики. ...............................................................................................................................................7 1.2. Открытые данные: определение понятия и его влияние на современное развитие журналистики. ........................................................................................................................12 1.3. Причины актуальности журналистики данных для современных СМИ. .................15 Глава 2. Механика работы с большими объемами данных в СМИ. ............................17 2.1. Сбор данных: способы и источники. .........................................................................................21 2.2. Очистка данных: способы и инструменты ..............................................................................25 2.3. Публикация данных: аналитика, трактовка и представление. ....................................28 Глава 3. Примеры и направления развития журналистики данных в российских и зарубежных СМИ. ..........................................................................................................................32 Глава 4. Перспективы журналистики данных ....................................................................47 Заключение .........................................................................................................................................57 Библиографический список ........................................................................................................59 2 Введение С наступлением цифровой эры, с каждым годом становится возможным передавать, хранить и анализировать все большие и большие массивы данных. Эта тенденция привела к возникновению в начале 2000-х годов термина «большие объемы данных» (big data). Появление этого термина обозначает начало формирования кардинально новых инструментов, заточенных под работу с большими объемами данными и, вместе с этим, понимания того, какие возможности работа с крупными массивами данных способна привнести в журналистику. Несмотря на то, что понятие больших объемов данных не имеет конкретно очерченных границ, следует разделять работу с данными в общем смысле слова от работы именно с крупными массивами данных в силу разницы в подходе и использовании для работы с ними новых инструментов и методов. Появление все новых журналистских проектов и материалов, основанных на работе с крупными массивами данных, все больший доступ к массивам открытых данных и распространение в Интернете в открытом виде крупных объемов информации (в том числе, считавшейся до недавнего времени секретной) представляет совершенно новые задачи и дает уникальные возможности для развития современной журналистики. Эти изменения в журналистском процессе объясняют актуальность выбранных задач исследования. Сейчас, когда у каждого пользователя Интернета появляется все больший доступ к данным, к возможностям для поиска, сбора и обработки огромного объема информации, вопросы работы с данными становится как никогда актуальны. При этом, получить необходимые данные стало возможно как из открытых источников, так и в результате журналистских запросов или поиска данных через не открытые источники. Следует понимать, что направление «журналистики данных» включает в себя весь спектр работ над журналистским материалом, в основе которого 3 лежит анализ большого объема данных. То есть, это и поиск изначальных данных, и очистка массива данных, и его последующая аналитика, трактовка и визуальное представление для читательской аудитории. В результате, можно отметить, что, по своей сути, журналистика данных служит связующим звеном для двух различных направлений работы — технической (которая предполагает проведение работ по сбору и аналитике большого объема данных) и журналистской (которая предполагает исследование темы, а также трактовку и подготовку концепции для наилучшего представления выводов исследования). Сейчас, когда журналисты все чаще сталкиваются с наборами «сырых» данных, для профессионального журналиста необходимым становится умение работать с ними, ориентироваться в данных, анализировать и получать из них новые сюжеты. Понимание данных как в ключе возможности углубиться в уже существующий сюжет, так и в ключе основы для создания сюжета «с нуля», по итогам изучения имеющегося массива информации, служит новым этапом в развитии современной журналистики. Основная цель данной работы – провести анализ процессов появления и развития журналистики данных, а также оценить потенциал данного направления журналистики. Рабочей гипотезой данного исследования служит утверждение о том, что сейчас для самого широкого числа пользователей и журналистов доступны возможности для поиска, обработки, анализа и визуализации больших объемов данных, что позволяет давать оптимистичные прогнозы на развитие направления журналистики данных в ближайшем будущем. Главными задачами данной работы являются: 1) Анализ истории появления журналистики данных как отдельного направления журналистики 4 2) Анализ процессов работы над данными в журналистике на каждом из этапов: от сбора данных до его последующей обработки, адаптации и трактовки для читательской аудитории 3) Практическое исследование наиболее ярких примеров журналистики данных как в российских, так и зарубежных СМИ 4) Изучение основных способов манипуляции и типовых ошибок при работе с данными в журналистике В соответствии с поставленными задачами, данная работа предполагает следующую структуру: Первая глава исследования посвящена изучению истории появления и развития журналистики данных, понятия открытых данных, а также анализу актуальности работы с данными для журналистики на современном этапе. Во второй главе проводится анализ работы с данными на каждом из этапов, начиная со сбора информации и поиска источников данных, и заканчивая очисткой, обработкой и анализом полученного массива данных. В третьей главе данного исследования показаны и проанализированы примеры работы с большими объемами данных в журналистике. В качестве примеров были выбраны выдающиеся проекты как из зарубежных, так и из российских СМИ. В четвертой главе анализируются перспективы развития журналистики данных, а также описываются сложности, с которыми сталкивается данное направление журналистики. В заключении работы подведены общие итоги исследования. 5 Глава 1. Использование данных в журналистике. При изучении использования данных в журналистике в первую очередь следует различать понятие «данных» от понятия «больших объемов данных» (термин «big data») 1, в силу того, что возможности для работы с ними появились вместе с массовым распространением компьютеров и баз данных — то есть, примерно с 1970-х годов, как это отмечает в своем исследовании профессор университета Северной Каролины Филипп Мейер2. Полноценное использование журналистами больших массивов данных становится возможным еще позже, вместе с появлением открытых данных. Первое упоминание термина «открытые данные» появляется в 1995 году, в то время как активное использование открытых данных в журналистике и обсуждение данного понятия датируется серединой 2000-х годов 3. В основе журналистики больших объемов данных лежит как появление больших массивов открытых данных в Интернете, так и появление большого числа свободных инструментов для обработки и визуализации данных4. Используя имеющиеся на текущий момент инструменты и данные, для журналиста становится возможным находить новые сюжеты (углубляясь в найденные пакеты данных, структурируя и анализируя их), а также визуализировать их для представления широкой читательской аудитории. При этом, следует иметь в виду, что более детальное погружение в данные, поиск комплексных зависимостей и корреляций требует использования также использования более комплексных инструментов (SPSS, R Studio) и наличия определенных навыков программирования (на основе систем MySQL, языка Python и др.).5 1 http://www.paristechreview.com/2013/03/29/brief-history-open-data/ 2 http://www.festivaldelgiornalismo.com/en/ospiti-2010/meyer-phillip/ 3 http://www.paristechreview.com/2013/03/29/brief-history-open-data/ 4 http://de.slideshare.net/escacc/data-driven-journalismperiodisme-de-dades?from_search=6 5 http://www.theguardian.com/news/datablog/2010/oct/01/data-journalism-how-to-guide 6 1.1. Понятие журналистики данных, история появления и развития этой формы журналистики. Журналистика данных — это направление журналистики, в основе которого лежит использование наборов данных для создания новых информационных поводов, либо для предоставления дополнительных сведений, фактов или уточнений в рамках текущего исследовательского журналистского материала или новостной статьи.1 Таким образом, данные могут или служить инструментом для того, чтобы раскрыть и показать некую журналистскую историю, или могут быть лишь фундаментом для нее, или выполнять и первую, и вторую функцию одновременно. По своей сути, термин «журналистика данных» включает в себя сразу несколько направлений работы2, а именно: —Работу журналиста с данными (основное направление) —Инфографику и визуализацию данных в целом (статичная либо интерактивная, включая игровые форматы) —Журналистика, основанная на работе с базами данных (представление для аудитории возможности открыто изучить большие объемы данных, не предоставляя никакой дополнительной аналитики). Примером журналистики на основе работы с базами данных может служить проект ChicagoCrime.org, позволяющий каждому желающему получить сводку с отчетами об уголовных преступлениях в Чикаго3. Несмотря на то, что история журналистики данных вызывает определенные споры в силу разницы в интерпретации данного понятия, 1 http://www.techopedia.com/definition/28593/data-journalism 2 http://en.wikipedia.org/wiki/Data_journalism#cite_note-3 3 http://www.holovaty.com/writing/chicagocrime.org-launch/ 7 первым полноценным материалом в жанре журналистики данных считается материал The Guardian 1821 года (то есть, опубликованный в самый первый год существования издания) 1. В исследовании Guardian изучается стоимость высшего образования в различных ВУЗах Британии, для чего авторы материала подготовили сводные таблицы, в которых указали цену на обучение в каждом учебном заведении. Работа получила позитивные рецензии за то, что впервые в журналистской практике столь «открыто представила все данные для читательской аудитории». Следующей яркой статьей в жанре журналистики данных считается исследовательская работа журналистки Флоренс Найтингейл. Её 54страничное исследование было посвящено анализу состояния и ежегодных потерь в штате британской армии в 1858 году. В своем крупномасштабном исследовании, автор приводит огромное количество данных, переведенных в табличный вид и диаграммы. Основой для материала стали «сырые» данные, полученные из доступных на тот момент источников. Из исследования Найтингейл складывается полноценное журналистское расследование, вывод из которого состоит в том, что даже в мирное время, смертность в армии оказывается почти вдвое выше, чем смертность гражданских лиц 1 http://www.theguardian.com/news/datablog/2009/mar/10/1 8 аналогичного возраста (в следствие проблем, совершенно не связанных с военными действиями — скажем, в силу несоблюдения санитарных норм в воинских частях)1 Новаторство работы заключалась не в использовании графиков и диаграмм (их в журналистских материалах использовали до работы Найтингейл)2, а в подходе к «сырым» данным, с помощью которых автор оформляет по своей сути полностью прозрачный (в значении используемых источников и данных) материал, который при желании может самостоятельно проанализировать и каждый читатель, используя опубликованные в статьи данные. Однако история появления термина «журналистика данных» несколько сложнее. Несмотря на то, что определить конкретные сроки появления этого понятия достаточно сложно, эксперты и сами журналисты чаще всего 1 http://ru.scribd.com/doc/35789415/Mortality-of-the-British-Army-1858 2 http://web.utk.edu/~leon/stat571/Nightingale/Florence%20Nightingale%20Museum%20Web %20Site_files/small.htm 9 отталкиваются от двух значимых дат в смежных областях, без которых появление журналистики данных было бы невозможно. Первая — 1952 год, когда в работе журналиста впервые отмечено использование компьютера. 1 В этом году телеканал CBS арендовал вычислительные мощности компьютера UNIVAC I для расчета прогнозов на результаты президентских выборов и оценки результатов каждого из кандидатов (Эйзенхауер и Стивенсон). Подобная практика использования компьютера для журналистики стала носить понятие Computer-assisted reporting (CAR — журналистский репортаж, созданных с использованием вычислений на компьютере). Дискуссия о различиях понятий Computerassisted reporting и data journalism (журналистики данных) продолжается до сих пор, однако на текущий момент уже достаточно определенно выделены отличия журналистики данных от computer-assisted reporting, а именно: —Большее внимание уделяется именно самим данным как основной ценности материала. Там, где ранее с использованием CAR пытались найти тему для журналистского материала или для подтверждения уже оформленных тезисов, сейчас стало возможным (в частности, в блогах на основе журналистики данных в The Guardian или Texas Tribune) публиковать исходные данные к журналистским статьям в открытом виде. Либо — не создавать материал, а вовсе выкладывать данные, скажем, на сайте СМИ в открытом виде, для того, чтобы читатели изучали их самостоятельно. —Понятие журналистики данных во многом отражает новый виток развития работы с данными, о чем заявляют и эксперты2 : если раньше о с н о в н о й р а б ото й ж у р н а л и с т а б ы л о и м е н н о з ап ол у ч и т ь е щ е неопубликованные данные, то сейчас, когда в Интернете появляется все больше данных в открытом виде, все большую ценность получает именно умение обработки данных и поиска в них собственно журналистских историй. 1 http://com.miami.edu/car/cox00.pdf 2 http://www.grepsr.com/blog/data-is-the-news-how-has-big-data-redefined-news-in-the-digital-era/ 10 —Наконец, понятие журналистики данных связано также с появлением целого спектра доступных инструментов для самостоятельной обработки данных и с появлением огромного объема данных в открытом виде.1 Вторая важная для журналистики данных дата связана с 2001-2002 годами, когда формируется понятие Big Data (больших объемов данных), завязанное на увеличении объемов, типов и скорости поступления новых данных, о чем (еще не употребляя термин Big Data, но уже формулируя все его основы) впервые говорит исследовательская компания Gartner в 2001 году (на тот момент носившая название META Group).23 Полноценное определение для журналистики данных было дано на первой международной конференции на тему журналистики данных (datadriven journalism), которая прошла в 2010 году в Амстердаме, после чего данное направление журналистики считается официально сформированным. 45 Начиная со второй половины 2010 года, понятие журналистики данных уже активно используется как на конференциях, так и в академических журналах. 67 1 http://datajournalismhandbook.org/1.0/en/introduction_4.html 2 http://upload.wikimedia.org/wikipedia/commons/7/7c/Hilbert_InfoGrowth.png 3 http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-DataVolume-Velocity-and-Variety.pdf 4 http://technologytank.org/2013/03/04/all-about-data-journalism/ 5 http://blog.okfn.org/2010/07/27/data-driven-journalism-amsterdam-24th-august-2010/ 6 http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1932740 7 http://www.hca.uws.edu.au/gmjau/ 11 1.2. Открытые данные: определение понятия и его влияние на современное развитие журналистики. Открытые данные — это наборы данных, которые возможно получить свободно, а использовать и распространять можно бесплатно каждому — с единственно возможным условием: следовать требованию указания источника данных и / или копирайт-лицензий на основе условий Creative Commons. 1 Однако данное определение требует ряда уточнений, которые расписаны, в частности, в полном тексте определения понятия «open data», составленным движением Open Definition2 . По данному определению, в понятие открытых данных обязательно должны быть включены: 1. Открытый доступ к данным — желательно, в формате бесплатно выложенного в Интернете контента. Обязательным требованием является размещение контента в машиночитаемом виде (а не только в доступном для человеческого распознавания). Таким образом, выложенные в открытом доступе сканы, скажем, рукописного текста не попадают под все требования понятия «открытые данные». 2. Свобода для дальнейшего распространения и повторного использования на основе тех же условий свободных лицензий, на которых доступны и исходные данные. 3. Запрет на установление ограничений на дальнейшее использование предоставленных данных (скажем, запрещается выставлять ограничение на коммерческое использование открытых данных). Таким образом, в случаях, когда определенный набор данных выложен в Интернете (в том числе, в машиночитаемом виде), он не считается открытым, если на него распространяются любого рода ограничения на дальнейшее распространение. 1 http://opendatahandbook.org/en/what-is-open-data/index.html 2 http://opendefinition.org/od/ 12 В свете направления журналистики данных, особенный интерес представляют открытые государственные данные. Так, представление государственных данных в открытом виде позволяет по-новому взглянуть на решение проблем коррупции и взяток1 . Скажем, международный проект https://openspending.org представляет в открытом виде транзакции, которые проводят крупнейшие государственные организации по всему миру, чтобы дать возможность журналистам, исследователям и активистам изучить потенциально спорные транши средств и сравнить адекватность государственных бюджетов получаемым на выходе результатам. 2 Одним из ярких примеров российской журналистко-расследовательской деятельности на базе открытых государственных данных служит проект Фонда борьбы с коррупцией Алексея Навального, http://fbk.info/, который в качестве основы для своей работы использует открыто публикуемые данные о госзакупках, http://zakupki.gov.ru, открытые данные на сайте Счетной палаты РФ http:// audit.gov.ru/ и другие источники. Однако, следует понимать, что такой формат использования открытых данных во многом служит способом саморегуляции государственных структур3 . По своей сути, инициатива по такой саморегуляции идет от самого правительства, в рамках реализации концепции «открытого государства», реализуемой во многих странах мира. Данная концепция предполагает предоставление для граждан данных по бюджетам, госзакупкам и ряду другой открытой информации, имеющейся у государства, для обеспечения эффективного самоконтроля4 . В то же время применение открытых данных в журналистики способнао выходить далеко за рамки сферы контроля за государственными финансовыми операциями и может касаться самых разных сфер, от информации о том, какие темы сейчас все чаще затрагивают музыканты в 1 http://illinoislawreview.org/wp-content/ilr-content/articles/2011/4/Schauer.pdf, p.11 2 http://community.openspending.org/about/ 3 http://illinoislawreview.org/wp-content/ilr-content/articles/2011/4/Schauer.pdf, p.11 4 https://www.civicinfo.bc.ca/Local_Content/presentations/CivX/ CivX_Presentation_Performance_Evaluation--MNP--2013.pdf 13 своих композициях1 до комплексных интерактивных исследований для тех, кто выбирает между покупкой и арендой жилья2 . 1 http://www.adme.ru/infografika/o-chem-poyut-poslednie-50-let-krutejshaya-infografika-639105/ 2 http://www.nytimes.com/interactive/business/buy-rent-calculator.Html 14 1.3. Причины актуальности журналистики данных для современных СМИ. Одной из главных причин актуальности работы с данными именно сейчас является все больший доступ к данным для каждого. Если раньше именно поиск и сбор информации был основной целью журналиста, то сейчас важнее становится обработка уже имеющейся информации, уже имеющихся данных (как полученных из открытых источников, так и полученных в результате журналистской работы – запро сов в государственный структуры, либо поиска и публикации не известных ранее данных). По своей сути, журналистика данных связывает два разрозненных ранее направления: техническую сторону (статистику и аналитику) с журналистской работой (исследование, трактовка и представление). При этом, по мнению журналистского сообщества1, журналистику данных нельзя считать заменой традиционной журналистики, но, напротив, еще одним способом расширения сферы ее действия и работы, а также инструментария. Используя данные, журналисты сегодня могут, во-первых, получить уникальные сюжеты, не прибегая к новостным темам, а во-вторых — получают уникальный инструментарий по контролю тех организаций и государственных структур, которые следуют правилам открытого правительства и публикуют данные о своей деятельности в открытом доступе. Для региональной прессы журналистика данных дает совершенно новые возможности для получения сюжетов, связанных с ситуацией в конкретном городе или районе. Используя возможности по аналитике и трактовке больших объемов данных по региональному обустройству, бюджетированию и ряду других вопросов, становится возможным получить еще больше инструментов для контроля, изучения и информировании жителей об актуальных проблемах в регионе. 1 http://datajournalismhandbook.org/1.0/en/introduction_2.html 15 Наконец, журналистика данных является одним из самых «честных» и прозрачных направлений в журналистике, поскольку используемые для подготовки материала данные всегда полностью прозрачны и каждый может самостоятельно проверить валидность представленных тезисов. 16 Глава 2. Механика работы с большими объемами данных в СМИ. Журналистика данных основана на том, что журналисту требуется провести работы по поиску, обработке, анализу и представлению данных. Данная последовательность работ стала уже сформировавшимся подходом для работы над данными в медиа. 1 Более подробно работу над данными описали сотрудники The Guardian, которые ведут отдельный блог, посвященный исключительно направлению журналистики данных, «The Guardian Datablog»2 . В нем они публикуют регулярные материалы, интерактивные приложения, инфографику и статьи — все на основе анализа больших объемов данных. Работу над данными в блоге The Guardian сами сотрудники представили схемой3 : 1 http://www.w3.org/2013/04/odw/odw13_submission_46.pdf 2 http://www.theguardian.com/data 3 http://datajournalismhandbook.org/1.0/en/in_the_newsroom_3.html 17 18 Таким образом, на первом этапе сотрудники редакции занимаются поиском данных: из множества источников они получают полноценную базу актуальных данных по определенному вопросу (включая данные из ново стных сводок, по ступающие из го сударственных органов, журналистских исследований и других источников). Затем, идет анализ полученного массива: помимо общей трактовки, исследуется, с какими еще пакетами данных возможно использовать найденную информацию, какие корреляции и зависимости возможно проследить в рамках исследуемой темы. На следующем этапе, происходит обработка и очистка данных: помимо рутинной работы по удалению склеенных (сдвоенных) табличных ячеек и очистки базы от «мусорных» элементов, встречающихся фактически в любом крупном массиве данных, на данном этапе требуется полная дешифровка имеющихся таблиц. В силу того, что многие значения при табличном представлении данных оказываются зашифрованы (скажем, регионы России — соответствующим региональным кодом, поликлиники — своим уникальным идентификатором, и так далее), журналисту совместно со специалистом по обработке данных (или без него) приходится восстанавливать всю логическую цепочку и расшифровывать значение каждого столбца и каждой строки. При слиянии таблиц, полученных из разных источников, потребуется также привести к единому виду все имеющиеся кодировки (скажем, если страны в одной из таблиц закодированы двухбуквенным кодом, то к точно такому же виду нужно будет привести и все другие таблицы, чтоб объединить данные в них). При работе с исходными данными в форматах, отличных от машиночитаемых (скажем, в PDF) журналисту приходится либо вручную переносить данные в таблицу, либо использовать специальное ПО для распознавания текста (что в случае с таблицами может приводить к целому ряду сбоев и ошибок). Наконец, по итогам технической обработки данных и понимания того, какие выводы из исследования журналист хочет донести до аудитории, 19 возникает вопрос представления данных. На этом этапе возможно как оформить материал в виде привычной журналистской статьи, так и воспользоваться инструментами визуализации: от интерактивных форматов до публикации данных через бесплатный сервис Google Fusion Tables, к чему иногда прибегают в том числе и в The Guardian. 1 1 1 http://datajournalismhandbook.org/1.0/en/in_the_newsroom_3.html 20 2.1. Сбор данных: способы и источники. При поиске данных для журналистского исследования, существует целый спектр возможностей для нахождения подходящих массивов информации: 1. Поиск данных через стандартные поисковые машины в Интернете (Google, Yandex, Yahoo и другие). Помимо стандартного поиска данных по основной теме, существует возможность найти базы данных, используя более точечные поисковые запросы, учитывающие особенности работы поисковых машин. В частности, через Google с использованием специальных поисковых команд возможно искать данные на определенном портале (на котором хранится большой массив открытых данных), можно искать в сети только файлы определенного типа (скажем, только представленные в виде таблиц Excel). 2. Все большее распространение концепции открытых данных и открытого правительства позволяет найти достаточно большой объем данных на официальных сайтах государственных органов. В случае с США, вопрос о необходимости постоянного улучшения доступа граждан к открытым данным, а равно и максимально оперативная реакция на ответы по запросам граждан на основе FOI (Freedom of Information — закона о свободе доступа к информации) позволяет значительно продвинуться в сфере предоставления данных в том числе и для журналистов1. Формально, в России вопрос улучшения системы открытых данных (через систему «Открытого правительства») также открыт и решается он в рамках реализации подпункта «г» пункта 2 Указа Президента Российской Федерации от 7 мая 2013 года № 601 «Об основных направлениях совершенствования системы государственного управления»2 (в рамках которого открытые данные должны были быть выложены на сайтах всех государственных структур РФ до июля 2013 года). Однако говорить о 1 http://mobile.theverge.com/2013/12/7/5185856/white-house-releases-second-open-government-plan 2 http://graph.document.kremlin.ru/page.aspx?1;1610860 21 значительных подвижках в данной сфере еще рано: на текущий момент существует целая масса примеров так называемых «плохих данных»1, которые публикуются в открытом виде на государственных порталах в РФ. Так, проект «Информационная культура» выделил целые сеты данных, которые выложены на официальных порталах государственных органов РФ в нечитаемом виде: наборы текста в одну строку, представление данных в устаревших версиях ПО, представление информации в виде графиков и диаграмм, без доступа к исходным данным, и так далее2 . В следствие слабого контроля за качеством выкладываемых открытых данных, многие гсоударственные структуры РФ имеют возможность под видом открытых данных выкладывать в Интернете по сути нечитабельные документы, которые невозможно проанализировать. По данным проекта «Открытые данные России», центральными ресурсами, на которых можно найти большие открытые базы данных от официальных структур, являются портал Открытых данных Правительства Москвы3 , а также Хаб открытых данных, на котором размещаются все найденные пользователями российские открытые базы данных4 . Представленные наборы данных посвящены самым разным вопросам: от результатов ЕГЭ по регионам России до данных Росстата о динамике смертности и рождаемости, или информации ЦБ РФ о суммарных размерах вкладов юридических и физических лиц в российских банках. Используя представленные ресурсы, можно найти целый ряд документов и баз данных, которые журналисту можно использовать для достаточно комплексного анализа выбранных вопросов. Если говорить о зарубежных источниках, посвященных сбору открытых данных, то следует в первую очередь выделить американский портал data.gov и британский data.gov.uk, на которых в открытом виде выложены 1 http://habrahabr.ru/company/infoculture/blog/203886/ 2 http://habrahabr.ru/company/infoculture/blog/201260/ 3 http://data.mos.ru/ 4 http://hubofdata.ru/ 22 сотни баз данных, посвященных вопросам федерального значения: информация об экономических показателях, цифры о количестве и качестве образования в различных регионах, и так далее. Помимо точечных, официальных веб-ресурсов с открытыми данными, существуют также международные агрегаторы подобных дата-сетов, скажем, datacatalogs.org, Guardian World Government Data, The Data Hub, ScraperWiki, BuzzData, Datamarket, Google Freebase и многие другие. Используя данные системы, можно найти открытые данные по странам мира, полученные совершенно из разных источников, включая данные, полученные от пользователей. В этой связи, при работе с данными, журналисту требуется также особенное внимание уделять проверке качества полученных данных и достоверности источников, поскольку любой неофициальный портал (в первую очередь — данные, выложенные пользователями) является потенциально рискованным источником открытой информации. 3. Помимо порталов и агрегаторов открытых данных, одним из способов поиска данных служит поиск по форумам на тематических ресурсах. Основные порталы, на которых можно найти активных членов из сообществоа журналистов, постоянно работающих с данными (и, потенциально, имеющими доступ к закрытым источникам данных) — Get The Data и Quora. На таких форумах возможно не только запросить и получить определенный сет данных, но также спросить у пользователей советов по наилучшим инструментам для очистки конкретной базы данных или ее визуализации. 4. Подписка на рассылки ключевых сообществ об открытых данных. Так, например, ключевое международное сообщество, занимающееся вопросами открытой информации, Open Knowledge Foundation регулярно проводит рассылку с информацией о новых актуальных крупных базах открытых данных и открытой информации, которая становится доступна для всех подписчиков. Помимо Open Knowledge Foundation существует также ряд других организаций, связанных с журналистикой данных и 23 открытыми данными, которые также проводят регулярный мониторинг и рассылку обновлений баз открытых данных: Data Driven Journalism List1, the NICAR-L2 и другие. 5. Запрос в официальные структуры или к экспертам. В большинстве случаев, при точном понимании темы исследования, жураналисту также ясны и те структуры, или те эксперты, у которых должны быть в наличии необходимые данные. Пользуясь возможностями свободного доступа к информации в США (Freedom of Information Act) или российской инициативой по созданию Открытого правительства, возможно получить определенные наборы данных после запроса в соответствующие структуры. В случае обращения за данными к экспертам (которые могут иметь доступ к данным, представляющим коммерческую тайну или к го суд а р с т в е н н ы м д а н н ы м , н е п р ед п ол а г а ю щ и м п убл и ч н о го распространения), следует учитывать, что журналист при работе с ними рискует нарушением федеральных законов и в каждом отдельном случеае потребуется юридическая консультация о правомерности использования соответствующего набора данных. 6. Доступ к данным через API (интерфейс программирования приложений). Используя навыки программирования (или воспользовавшись услугами специалистов), становится возможным получить доступ к данным, которые не выложены в Интернете в удобном для доступа и скачивания виде. Скажем, если государственное ведомство предоставляет отчетность в формате интерактивного графика, то с использованием технологий парсинга (захвата) данных становится возможным получить полноценный, структурированный набор данных там, где их использование третьими лицами изначально не предполагалось (однако и не запрещалось). 1 https://lists.okfn.org/mailman/listinfo/data-driven-journalism 2 http://www.ire.org/resource-center/listservs/subscribe-nicar-l/ 24 2.2. Очистка данных: способы и инструменты Необходимость в очистке данных (процессе поиска и корректировки неверных или неточных элементов базы данных, который нужен для последующей работы с базой данных1) возникает при работе практически с любыми данными, полученными из открытых источников. В виду того, что в каждой организации выставляются свои требования к оформлению данных и к контролю за качеством вносимых в базы данных сведений, журналисту в любом случае придется изучить полученную базу данных, а в случае ее слияния с другими — еще и привести к единому форматированию. Так, в разных таблицах, или даже в пределах одной базы данных часто встречаются примеры, когда одни и те же графы оказываются закодированы по-разному. Журналисту приходится приводить к единому формату самые разные столбцы: от кодировок стран (которые можно закодировать двумя буквами, можно цифрами, можно полными названиями стран и так далее) до самой простой графы — «пол», которую можно обозначить либо цифрами, либо словами, либо сокращениями. Другая потенциальная проблема — использование синонимов или неточных определений, которые также усложняют верную обработку данных (скажем, использование в рамках одного столбца кодировок «студент», «учащийся», «школьник»). В этом случае требуется либо привести все названия к единому виду, либо упростить базу данных в этом пункте, чтобы избежать неточностей при дальнейшем представлении. В связи с этим, при работе с крупными базами данных, стандартом стала подготовка «словаря» для универсального представления ключевых значений как между разными таблицами, так и в рамках одного массива данных. 2 В рамках такого словаря данных, подготавливается описание для каждого из http://www.sciencedirect.com/science/article/pii/S0951832013000100 2 http://datajournalismhandbook.org/1.0/en/understanding_data_2.html 25 используемых кодов, чтобы избежать различных трактовок одних и тех же значений и неточностей при работе над проектом целой команды (качественно разработанные таблицы с открытыми данными часто сопровождаются документом с описанием каждого из кодов). Однако даже в случае работы с данными, к которым прилагается «словарь» с расшифровкой всех кодов, журналисту следует быть внимательным к спорным пунктам. Так, газета Miami Herald была вынуждена опубликовать опровержение к одному из своих материалов1, построенных на базе статистики о судейских вертиктах за вождение в нетрезвом виде. Журналиты исследовали наказания, которые получали подсудимые за вождение в нетрезвом виде и, судя по полученными ими данными, в 1-2% случаев судьи не выносили подсудимым наказания ни в виде штрафа, ни в виде тюремного срока. Однако, по законам штата, судья обязан был выписать наказание водителю, управлявшим транспортным средством в нетрезвом виде, и своим материалом Miami Herald по сути обвинила судей в нарушений закона. При детальном изучении дела, выяснилось, что эти 1-2% случаев были вызваны тем, что подсудимый, которому выносился штраф, был малоимущим и не мог его выплатить, а значит – ему полагались общественные работы вместо штрафа. В следствие того, что данного комментария не было в «словаре» к базе данных по судейским вердиктам, газета ошибочно вменила судьям нарушение закона штата и была вынуждена публиковать опровержение в следующем номере. Впрочем, для стандартной очистки базы данных, не учитывая специфику, в которой следует разбираться именно журналисту или исследователю, на этапе очисти данных вполне можно использовать бесплатные инструменты, скажем, Google Refine2 . Используя эту утилиту, журналист даже с базовыми знаниями по части работы с таблицами, может автоматически привести текстовое представление данных в таблицу, автоматически исправить ячейки 1 http://datajournalismhandbook.org/1.0/en/understanding_data_2.html 2 http://google-opensource.blogspot.ru/2010/11/announcing-google-refine-20-power-tool.html 26 с данными, введенными с ошибкой (используя анализ по тому, как часто используются какие слова в определенных строках / столбцах и так далее). Google Refine пользуются многие издания и организации, начиная от Chicago Tribune1 и заканчивая государственными структурами, работающими с данными, скажем, data.gov.uk2 Полноценный функционал по очистке больших массивов данных доступен в более комплексном ПО, с использованием языков программирования: Python, R и другие решения для работы с данными дают пользователю практически неограниченные возможности по очистке данных, в том числе и для их последующей визуализации. 3 1 http://blog.apps.chicagotribune.com/2010/05/17/the-gift-of-freebase-gridworks/ 2 http://www.jenitennison.com/blog/node/145 3 http://www.datasciencecentral.com/profiles/blogs/python-data-tools 27 2.3. Публикация данных: аналитика, трактовка и представление. Несмотря на то, что основным способом представления большого объема данных в журналистике служит визуализация (в форматах от инфографии до интерактивных веб-приложений), во многих случаях важнее оказывается трактовка полученных данных. Будь это аналитический материал или пояснительная записка к визуализации, часто именно журналистская трактовка и аналитика полученных результатов позволяет раскрыть картину происходящего. Таким образом, многие журналисты признают1 , что в ряде случаев, разумнее пренебречь полноценной визуализацией, особенно в случаях, когда для ее качественной разработки недостаточно ресурсов. Вместо этого возможно опубликовать вместе с журналистским материалом либо «сырые» данные, либо представить выводы в более традиционном формате, со статичными графиками и аналитикой. Многие западные издания отмечают, что, несмотря на множество бесплатных, недорогих или условно-бесплатных инструментов для визуализации (Many Eyes, Overview Project, Tableau, Dipity, Google Fusion Tables), все они не могут сравниться с теми возможностями, которые получает журналист при работе с отдельной дизайн-командой2. Основная проблема бесплатных инструментов заключается в том, что большая их часть заточена под всего один или несколько стандартных вариантов визуализации и не может дать необходимой гибкости в работе для создания качественного визуального проекта, заточенного под требования конкретного журналистского материала. В многочисленных подборках лучших инструментов для визуализации, большую часть представляют дополнительные библиотеки или надстройки для профессионалов JavaScript, HTML5, Ruby и других языков программирования3 , которыми активно пользуются крупнейшие медиа и организации по всему миру, от New York 1 http://datajournalismhandbook.org/1.0/en/delivering_data_0.html 2 http://www.theguardian.com/news/datablog/2011/oct/17/data-visualisation-visualization 3 http://codegeekz.com/30-best-tools-for-data-visualization/ 28 Times до UNESCO1 . Учитывая наличие тысяч примеров визуализации с D3 (крупная библиотека с шаблонами для визуализации на базе JavaScript), использовать этот инструмент в журналистике становится еще удобнее2. Во многом именно появление бесплатных инструментов визуализации спровоцировало в журналистских кругах дискуссии о примерах «плохой визуализации» — использовании неточных, примитивных и / или шаблонных вариантов для изображения информации в журналистских материалах34 . Журналисты сходятся во мнении, что для поиска наилучшего решения по визуализации (а также принятия решения о том, необходима ли она в принципе), следует создать множество черновых, вспомогательных графиков, и лишь после жесткого их отбора выбрать наилучший способ представления информации. Таким образом, на выходе, в журналистском материале не должно быть неинформативной визуализации или непроработанных графиков (без указания точной «легенды», подписей к осям и так далее). 1 https://github.com/mbostock/d3/wiki/Gallery 2 http://christopheviau.com/d3list/ http://www.theguardian.com/news/datablog/2011/oct/17/data-visualisation-visualization 4 http://www.niemanlab.org/2011/10/word-clouds-considered-harmful/ 29 Примеры неудачной визуализации данных, найденные порталом Gizmodo1 При работе с открытыми данными, безусловно важным аспектом каждой визуализации является требование публикации исходных данных и таблиц, которые использовались при исследовании выбранной темы. При этом, эксперты отмечают, что вместе с результатами исследования (будь это визуализация или же просто материал на основе анализа открытых данных), публиковать требуется не первичные данные, не прошедшие очистку, а именно тот материал, который журналист использовал в финальной версии 1 http://gizmodo.com/8-horrible-data-visualizations-that-make-no-sense-1228022038 30 проекта, включая наличие подписей и словарей используемых в таблицах кодов для обозначения переменных. 1 Таким образом, несмотря на то, что бесплатные инструменты для визуализации иногда используются также и крупными СМИ, в большинстве случаев, приоритет отдается именно внутренним разработкам, которые осуществляют внешние или штатные команды дизайнеров и разработчиков. На основе полученных после обработки объема данных результатов, они также могут принимать решение как о необходимости визуализации в принципе, так и о наилучших способах ее реализации. 1 https://groups.google.com/forum/#!msg/rudataexpedition2/TXl1UIAZj_8/5Ap_-GiDOLIJ 31 Глава 3. Примеры и направления развития журналистики данных в российских и зарубежных СМИ. При анализе примеров работы с данными в СМИ, можно определить два ключевых направления для представления больших объемов данных в СМИ: —Интерактивные форматы визуализации (краудсорсинг форматы1 , интерактивная инфографика) —Статичное представление данных (визуализация в виде инфографики, публикация текстовой журналистской истории, представление в табличном виде адаптированных данных, публикация просто «сырых» или прошедших первичную обработку данных для самостоятельного анализа аудиторией) В качестве известных зарубежных примеров журналистских проектов, основанных на работе с большими объемами данных, можно выделить следующие: 1. Проект «Do No Harm» («Не навреди») в Las Vegas Sun: 1 http://ria.ru/files/book/_site/ch04_5.html 32 В рамках проекта, длившегося 2 года, редакция Las Vegas Sun оформила целый раздел на сайте1, посвященный проблемам в области медицины в ЛасВегасе, о которых знают далеко за пределами города. В рамках проекта, редакция опубликовала цикл статей, фотоотчетов и видеорепортажей, читательских историй, а также интерактивной инфографики, с указанием и публикацией исходных документов и исследований, ставших основной для журналистских статей. В результате работы с массивом из 2,9 миллионов больничных записей, Las Vegas Sun удалось выявить более 3500 случаев травм и осложнений, которые случились с пациентами по вине медицинского персонала в больницах города (включая инциденты, которые завершались смертельным исходом). Проект получил большой резонанс как среди читателей, так и в городском правительстве и в экспертном медицинском сообществе2. 1 http://www.lasvegassun.com/hospital-care/ 2 http://www.lasvegassun.com/news/2010/jun/27/health-care-can-harm-you/ 33 2. Выдающийся интерактивный проект представила в 2012 году редакция NY Times 1: В качестве темы исследования были выбраны президентские выборы, и издание представило интерактивную карту с 8-ю основными (по мнению экспертов) сценариями выборов, с разбивкой по каждому из штатов (с разделением каждого из штатов по пяти градациям: однозначно за демократов, однозначно за республиканцев, скорее за демократов, скорее за республиканцев, равные шансы). В результате, читатели могли в интерактивном формате посмотреть на самые разные прогнозы результатов выборов, включая возможность создания в приложении собственного «сценария». 1 http://elections.nytimes.com/2012/ratings/electoral-map 34 3. Получивший в 2009 году Пулицеровскую премию1 проект Toxic Waters 2 от The New York Times стал одним из важнейших примеров журналистского материала на стыке журналистики данных и репортажной журналистики. В рамках проекта, команда журналистов оформила целую серию инфографики, интерактивных карт, опросов и данных, основанных на анализе более ста профессиональных документов об исследовании уровня загрязнения питьевой воды в различных штатах США. Помимо анализа открыто доступной информации, журналисты направили около 500 запросов на базе закона о свободе доступа к информации (Freedom of Informational Act) в государственные органы, чтобы получить недостающие данные и сведения. Помимо анализа вопросов по содержанию вредных веществ в воде, команда журналистов, работавших на проекте Toxic Waters также изучила потенциальные риски для здоровья, которые могут нанести повышенные дозы конкретных запрещенных веществ, которые были найдены в питьевой воде, из-за чего проект имеет определенные черты научного журналистского исследования3. 1 https://people.eou.edu/socmedia/media-resources/investigative-reports/ 2 http://projects.nytimes.com/toxic-waters 3 http://hydro-logic.blogspot.ru/2010/12/nytimes-toxic-waters-reporter-wins-aaas.html 35 4. Визуализация данных, появившихся в результате Wikileaks, стала настоящим вызовом для всего журналистского сообщества1: получив в свое распоряжение огромный массив секретных данных (суммарно — 391,832 документа, на прочтение которых потребовалось бы около 272 дней), журналисты долгое время просто не могли понять, что с ним делать. В результате, одним из выдающихся примеров визуализации массива 1 http://www.theguardian.com/news/datablog/2010/dec/16/wikileaks-iraq-visualisation 36 разнородных отчетов об операции в Ираке из Wikileaks стала работа журналистов Associated Press Джонатана Стрэя и Джулиан Берджесс. Особенностью данной работы стало то, что она была полностью реализована с помощью открытых инструментов визуализации The Overview Project1 и Gephi2 , позволяющими визуализировать большие массивы данных и документов. В рамках проекта, журналисты создали облако тегов (ключевых слов), которые встречаются во всем множестве документов, полученных от проекта Wikileaks о военных действиях в Ираке. Получившаяся визуализация позволила выделить ключевые темы документов, включая теги «задержаны», «убиты», «взрывчатое вещество», «подвержены пыткам». В аннотации к визуализации3, журналисты отметили, что, согласно имеющимся данным, в ходе операций в Ираке погибло около 4000 военнослужащих США и около 100’000 гражданского населения, и, используя огромные массивы документов по каждому из дел, становится возможным понять причины, которые стояли за такой высокой смертностю: десятки тысяч описанных инцидентов стрельбы и пыток позволили журналистам определенно заявить о том, что правительство скрывало множество фактов об операции Ираке. 5. Одним из первых крупномасштабных журналистских проектов на основе работы с большими объемами данных стало совместное исследование The Guardian и Лондонской Школы Экономики, в рамках которого они анализировали массовые беспорядки, происходившие в Англии летом 2011 года4. 1 http://overview.ap.org/ 2 http://gephi.org/ 3 http://jonathanstray.com/a-full-text-visualization-of-the-iraq-war-logs 4 http://www.theguardian.com/uk/series/reading-the-riots 37 Проект проходил в две стадии: как непосредственно во время массовых беспорядков, так и после них, когда журналисты уже могли проанализировать все имеющиеся данные. В результате, уже на первом этапе проекта, журналисты представили два крупных интерактивных веб-приложения. В рамках первого, они создали интерактивную карту, которая в реальном времени показывала ситуацию с протестующими в разных частях Англии, включая отметки о возможных причинах беспорядков в конкретном районе. В рамках второго вебприложения, журналисты анализировали динамику хештегов в Twitter, посвященных беспорядкам, пытаясь отследить активность пользователей и даже предсказать таким образом потенциально опасные для граждан районы. В ходе исследования активности в Twitter, журналисты пришли к выводу о том, что данная социальная сеть все же не являлась центром для координации действий протестующих, а лишь позволяла максимально оперативно получить сведения о том,в каком из районов уже происходят беспорядки. 38 Второй этап глобального проекта предполагал проведение аналитики по всем полученным в ходе исследования материалам, уже после того, как все беспорядки завершились. Основным результатом работы на втором этапе стала интерактивная визуализация того, как распространялась информация о беспорядках в Twitter1. Проанализировав более 2,6 млн сообщений на тему городских беспорядков в Twitter, журналисты смогли детально разобрать то, как в социальной сети распространялись все новые слухи о беспорядках. Разбив сообщения в Twitter по ключевым темам («бунтующие захватили зоопарк и выпускают на волю животных», «бунтующие атакуют детский госпиталь» и др), журналистам и аналитикам удалось создать карту распространения информации по каждой из тем: начиная с того, как очередная тема появляется, как она развивается в дискуссиях на Twitter и как она постепенно идет на спад. Полученная аналитика позволяет получить совершенно новые сведения о распространении информации в социальных сетях и способах ее контроля, в том числе при массовых беспорядках2. 1 http://www.theguardian.com/uk/interactive/2011/dec/07/london-riots-twitter 2 http://datajournalismhandbook.org/1.0/en/case_studies_8.html 39 Помимо сюжетов на атуальные новостные темы, в направлении журналистики данных также есть примеры работ, посвященных более прикладным вопросам. Скажем, проект «Is It Better to Buy or Rent?»1 от The New York Times: По своей сути, проект является интерактивным прикладным инструментом, выполненным в формате калькулятора, позволяющего оценить потенциальную выгоду от аренды или же покупки жилья в перспективе на ближайшие годы. Особенность проекта заключается в подходе к аналитике, которую реализовали журналисты The New York Times. Вместо стандартных упрощенных расчетов, в калькуляторе расчитывается небывало большое количество факторов, влияющих на конечную стоимость проживания в арендованном или купленном жилье. Начиная с просчета уровня инфляции (который также можно изменить в настройках веб-приложения) и заканчивая потенциальными расходами на текущее обслуживание и ремонт жилья, страхование недвижимости, а также с заложенными расчетами на повышение стоимости жилья со временем (как стоимости аренды, так и 1 http://www.nytimes.com/interactive/business/buy-rent-calculator.Html 40 стоимости самой недвижимости). В результате, достаточно простое по своей сути веб-приложение превратилось в масштабный проект, оперирующий множеством показателей и завязанным на работе с масштабными расчетами по каждому из показателей. В России направление журналистики данных также развивается достаточно активно, в том числе и с проектами, выполненными в интерактивных форматах. Позитивным знаком для развития журналистики данных в России служит как развитие направления инфографики (включая процессы покупки и перехода целых студий инфографики: скажем, студия по работе с визуализацией данных РИА Новости в марте 2014 года перешла работать в «Афиша-Рамблер-SUP»1), так и появление уникальных по своему контенту проектов — например, потоков об инфографике и работе с большими объемами данных на LookAtMe2 и The Village3 . На slon.ru с февраля 2014 года появился отдельный раздел, посвященный журналистике данных в сфере рекламы, рынка медиа, мобильного интернета и других направлениях digital индустрии: Digital Insights4. Первый материал в рубрике Digital Insights на slon.ru в виде интерактивной инфографики представляет исчерпывающую информацию о российском цифровом медиарынке, включая аналитику по взаимодействию медиа и социальных сетей, глубине просмотра сайтов пользователями, а также детальную картину по источникам трафика (пользователей) для ключевых российских онлайн-СМИ. 1 http://lenta.ru/news/2014/03/27/studio 2 http://www.lookatme.ru/mag/blogs/guest-editor/201271-e-infographics 3 http://www.the-village.ru/village/city/big-data/143311-big-bang-data 4 http://slon.ru/future/ iz_chego_sdelany_media_ischerpyvayushchiy_gid_po_trafiku-1051927.xhtml#subscribe 41 Не менее впечатляющим проектом является работа компании «Меркатор» по интерактивной визуализации возраста строений Москвы1, с возможностью разделения строений на годы посртойки («Дореволюционная Россия», «Большевики и Сталин», «Хрущев», «Брежнев», «Черненко, Андропов, Горбачев», «Лужков»). 1 http://msk.mercator.ru/ 42 Проект иллюстрирует как потенциал по визуализации данных в России, так и возможности по эффективному использованию имеющихся открытых данных Правительства Москвы. Также в 2013 году эффектиные примеры инфографики преподносила студия РИА Новости. Скажем, интерактивный проект «Кто оплачивает пенсию?»1 на основе открытых данных Росстата и ЕМИСС представляет пользователям карту с балансом в соотношении работающих россиян и людей пенсионного возраста, с 1990 года. Помимо статистики по 2013 год, инфографика предлагает также прогноз, построенный также на базе расчетов Росстата, касательно изучаемых показателей, вплоть до 2030 года. 1 http://ria.ru/infografika/20131108/975609928.html 43 Кроме интерактивных форматов, статичное представление часто заслуживает особого упоминания: скажем, проект Института демографии НИУ ВШЭ опубликовал исследование1 (в последствие, адаптированное под журналистский формат на slon.ru2), в котором детально проанализирован уровень смертности в ДТП в России и мире. В результате, авторы исследования приходят к выводу о том, что «[российский] уровень смертности в ДТП [на 2010 год] был характерен для европейских стран начала 1970-х годов» Впрочем, среди проектов в направлении журналистики данных существуют также и работы развлекательные, не связанные с какими-либо социальными вопросами. Скажем, в 2013 году художник Николай Ламм представил собственное исследование в формате инфографики, посвященное изучению текстов самых популярных песен журнала Billboard за последние 50 лет3 . В своей работе Ламм исследует, как с годами меняется частота использования в поп-хитах таких слов, как «любовь», «секс», «грусть», «счастье» и других. Проект получил широчайшую поддержку в СМИ по всему миру, а также в соицальных сетях. 1 http://demoscope.ru/weekly/2014/0593/tema04.php 2 http://slon.ru/economics/skolko_mozhno_bezopasno_ezdit_na_mashine_v_rossii-1090085.xhtml 3 http://www.huffingtonpost.com/2014/02/27/nickolay-lamm_n_4855787.html 44 Помимо СМИ, регулярной работой с анализом данных для дальнейшего представления в формате журналистского материала занимаются и организации, у которых есть доступ к большим объемам данных. Так, компания Яндекс регулярно изучает поисковые запросы пользователей и оформляет их в инфографику, которую публикует в своем блоге1. При этом, как и другие материалы в направлении журналистики данных, работы Яндекса сопровождает сопроводительный текст, в котором дается ключевая аналитика по изученному вопросу. http://blog.yandex.ru/post/77309/ 45 46 Глава 4. Перспективы журналистики данных При рассмотрении перспектив журналистики данных, следует понимать, что, несмотря на прозрачность открытых данных, нельзя не учитывать целый ряд особенностей представления и аналитики, которые позволяют различно трактовать исходные материалы. В связи с этим, журналистку данных будет неверно причислять к «новому этапу журналистики». Более того, аналитики отмечают, что при работе с данными, журналисты могут находить как разные источники, так и намеренно игнорировать определенные наборы данных для того, чтобы результаты их исследования соответствовали намеченным изначально целям1. Используя мошеннические приемы, журналисты могут вводить читателей в заблуждение как относительно исходных данных, так и относительно результатов и выводов исследования. В частности, существует целый ряд уже описанных возможностей визуального обмана чиаттелей2 , используя следующие механизмы: 1. Масштабирование оси Y: в качестве одного из самых простых способов введения читателей в заблуждение служит нестандартное представление оси ординат в графиках. В основе данного метода лежит тот факт, что в большинстве графиков ось Y отражает значения от нуля до 100 (либо другого максимального значения). Однако, используя в качестве начала отсчета не нуль, можно получить на выходе совершенно разные с визуальной точки зрения графики, к примеру: 1 http://qz.com/189703/the-problem-with-data-journalism/#/ 2 http://gizmodo.com/how-to-lie-with-data-visualization-1563576606 47 Как видно на графиках, данные слева и справа представлены совершенно равнозначиные, более того — придраться к мошенничеству также будет нельзя (валидны оба графика). Однако в представлении зрителя, картина получается разительно отличной. Данный прием особенно эффектно использовать на телевидении, поскольку у зрителей нет возможности детально изучить данные, которые стоят за представленными графиками. Скажем, вот как представил телеканал FOX разницу всего в 4,6% между 48 налоговыми ставками: 2. Другой вариант — использование кумулятивных графиков, позволяющих полностью изменить представление о реальном положении дел для неосведомленного читателя. 49 Там, где обычный график показывает реальные результаты за год, кумулятивный суммирует показатели за все прошедшее время. Такой подход не позволит обмануть экспертов, однако создает видимость постоянного прогресса там, где его нет. В частности, кумулятивным представлением данных часто пользуется Apple, и портал Quartz сравнил показатели на презентациях компании в сравнении с обычными диаграммами1 : 1 http://qz.com/122921/the-chart-tim-cook-doesnt-want-you-to-see/ 50 3. При визуализации данных возможны также манипуляции с круговыми диаграммами. Скажем, представив круговую диаграмму с нестандартной суммой значений (вместо 100% — выставить 193%), телеканалу FOX удалось выставить результаты президентских выборов от республиканской партии в 2012 году как гонку с максимально близкими показателями голосов: 51 4. Наконец, одним из самых ярких примеров лживого представления данных служит отображение данных с перевернутой осью ординат. Так, при представлении данных о смертности от огнестрельного оружия во Флориде, агентство Reuters, представило знаменитый закон Флориды 2005 года («Stand your ground law», позволяющий легально применять боевое оружие для самозащиты не только в пределах дома, но и на улице) как закон, позволивший значительно снизить смертность от применения огнестрельного оружия: 52 Однако лишь при внимательном изучении графика становится ясно, что в нем перевернута ось ординат: значения по оси Y увеличиваются сверху вниз, что позволяет дать совершенно иную трактову закона. Показательно, что издание Business Insider в аналитическом материале о причинах неудач закона «Stand your ground»1 также использовало график Reuters, однако позже дополнила материал уже «перевёрнутым» вариантом графика, 1 http://www.businessinsider.com/gun-deaths-in-florida-increased-with-stand-your-ground-2014-2 53 который не вводил читателей в заблуждение: Впрочем, помимо умышленного обмана читателей с использованием визуального представления данных, существует также опасность попадения журналиста в ловушку незнания основных принципов статистики и работы с данными1. Скажем, одна из самых ярких ошибок — создание несуществующих зависимостей между различными данными с похожей корреляцией по времени. Тема ошибок при рассмотрении коррелирующих понятий особенно ярко понятна на примере портала http:// www.tylervigen.com/ , основанного на поиске самых странных и забавных корреляций между различными процессами (не имеющими совершенно никакой зависимости между собой). Скажем, вот пример корреляции с 1999 1 http://gannettona2013.tumblr.com/post/64404775884/nate-silver-on-what-journalists-should-know-about 54 года по 2009 год между бюджетом, который США выделяет на науку, изучение космоса, и технологии, а также количеством самоубийств через повешение: Таким образом, при работе с данными, журналисты могут совершать целый ряд как намеренных преступлений против честного представления имеющейся информации, так и неумышленных, основанных на неумении работать и анализировать данные. Еще одной сложностью на пути использования данных часто служит юридический аспект. Так, например, в пользовательском соглашении API (инструментов для доступа разработчиков к данным) Государственной думы РФ указано, что портал «не гарантирует достоверность, точность, полноту и своевременность Данных, получаемых с помощью Сервиса»1. Таким образом, юридическая ценность размещаемых на портале данных является, по сути, нулевой и требует дополнительных юридических консультаций в случае отсылки к полученным данным в результатах журналистского исследования. Не меньшую сложность для журналистики данных представляет малое количество открытых для каждого инструментов для обработки и визуализации данных — большая часть представленных на текущий момент решений ориентирована именно на разработчиков, имеющих знания в 1 http://api.duma.gov.ru/pages/api 55 области языков программирования, либо требует хотя бы базового представления о языках программирования1 . С другой стороны, имея команду разработчиков или обладая хотя бы базовыми навыками программирования и работы с таблицами, сегодня журналист имеет возможность проанализировать огромные массивы как открытых данных, так и полученных из закрытых источников, сделать на основе произведенной аналитики выводы и проиллюстрировать их базовой визуализацией, полученной с помощью бесплатных инструментов. Появление с конца 2000-х годов в зарубежных и российских СМИ целых отдельных потоков, блогов и направлений, занимающихся исключительно вопросами работы с большими объемами данных, говорит о том, насколько перспективным считают журналистику больших объемов данных в профессиональной сообществе. Все это позволяет строить достаточно оптимистичные прогнозы на развитие журналистики данных в ближайшие годы по всему миру. 1 http://readwrite.com/2010/11/05/impure-data-visualization#awesm=~oEyWffVWe3GIYn 56 Заключение Все большее распространение открытых массивов данных и увеличение количества журналистских материалов, основанных на их обработке, анализе и визуализации позволяют определенно назвать направление журналистики данных одним из перспективных направлений в развитии журналистики на ближайшие годы, как для российских, так и для зарубежных СМИ. Проведенное исследование соответствует логике целей и задач, определенных в Введении к данной работе. По итогам исследования, можно сделать следующие выводы: • Использование больших объемов данных становится все более значимым направлением работы для журналистов по всему миру. Умение работать с данными, анализировать и понимать их для получения новых журналистских сюжетов становится все более важной частью журналистского процесса • Появление полностью открытых источников данных, а также бесплатных инструментов для очистки, обработки и визуализации данных позволяет делать прогноз об увеличении количества журналистских материалов на основе аналитики больших объемов данных в ближайшие годы • Планомерное развитие концепции свободы доступа к информации в США, а также определенные подвижки в развитии инициатив концепции «Открытого правительства» в РФ позволяют давать оптимистичные прогнозы на улучшение качества и количества публикуемых в открытом доступе наборов данных из официальных источников В результате исследования, можно сделать вывод о том, что рабочая гипотеза в целом подтвердилась. Несмотря на то, что многие крупные 57 журналистские проекты в направлении журналистики данных реализованы целой командой, в которую также входят дизайнеры и разработчики, на текущий момент можно констатировать, что сегодня в Интернете в распоряжении каждого журналиста есть весь необходимый инструментарий и набор источников данных для проведения полноценного журналистского исследования с использованием больших объемов данных. Таким образом, можно сказать, что появление все большего числа сюжетов в направлении журналистики данных является закономерным шагом для развития журналистики в цифровую эпоху. Наконец, несмотря на то, что журналистика данных не является по своей сути панацеей от возможных злоупотреблений по части представления выводов в искаженном виде, следует отметить, что данное направление журналистики делает очередной шаг в сторону прозрачности контента и повышения ответственности к валидности публикуемой информации для всего журналистского сообщества. 58 Библиографический список 1. “The Data Journalism Handbook. How Journalists Can Use Data to Improve the News.”, Jonathan Gray, Lucy Chambers and Liliana Bounegru, O'Reilly Media, August 2012 2. “Transparency in three dimensions”, Frederick Schauer, University of Illinois Law Review, January 2011 3. “Best Practices in Data Cleaning: Debunking Decades of Quantitative Mythology”, Jason W. Osborne, SAGE Publications, January 2012 4. “Bad Data Handbook: Cleaning Up The Data So You Can Get Back To Work”, Q. Ethan McCallum, O'Reilly Media, November 2012 5. “Interactive Data Visualization for the Web”, Scott Murray, O'Reilly Media, March 2013 6. “The Visual Display of Quantitative Information”, Graphics Press UK, November 2003 7. “A Brief History of Open Data”, Simon Chignard, Paris Tech Review, March 2013 8. “Mortality of the British Army”, Florence Nightingale, Harrisons and Sons, 1858 9. “The development of computer-assisted reporting”, Melisma Cox, School of Communication University of Miami, March 2013 10. “Application Delivery Strategies”, Doug Laney, META Group, February 2001 11. “Emerging Issues in Internet Regulation: The Unstable Role of Wikileaks and Cyber-Vigilantism”, Alison Powell, University of Oxford, September 2011 12. “Open Government: Transparency, Collaboration and Participation in Practice”, Danel Lathrop, Laurel Ruma, O'Reilly Media, February 2010 13. “Open Data in Data Journalists' Workflow”, Uldis Bojārs and Edgars Celms, University of Latvia, March 2013 59 14. “A full-text visualization of the Iraq War Logs”, Jonathan Stray, April 2012, http://jonathanstray.com/a-full-text-visualization-of-the-iraq-war-logs 15. “How to Lie With Data Visualization”, Ravi Parikh, April 2014, http:// gizmodo.com/how-to-lie-with-data-visualization-1563576606 16. “Data normalization par excellence–the gift of Freebase Gridworks”, Chicago Tribune, May 2010 http://blog.apps.chicagotribune.com/ 2010/05/17/the-gift-of-freebase-gridworks/ 17. “Python Data Tools”, Data Science Central, March 2013 http:// www.datasciencecentral.com/profiles/blogs/python-data-tools 18. Указ Президента РФ от 07.05.2012 N 601 "Об основных направлениях совершенствования системы государственного управления" http:// graph.document.kremlin.ru/page.aspx?1;1610860 19. Материалы The Guardian Datablog http://www.theguardian.com/news/ datablog, блогов по журналистике данных на Quartz http://qz.com/ 189703/the-problem-with-data-journalism/#/, блога компании Яндекс http://blog.yandex.ru/post/77309/ 60

Журналистика данных (Big Data in Journalism)

Daniil Dymshits

Рецензии:

Отзывы: