Статистика как наука

Служба в России

Подразделения есть во всем мире. Наиболее известные – это статкомиссии ООН, ВОЗ, МВФ, Евростат.

Росстат – национальная статистическая служба РФ. День 20 сентября (8 по старому стилю) 1802 г. считается датой образования.

Деятельность его многогранна. Сегодня он обеспечивает официальной информацией всех, от простого россиянина до президента страны. С этой целью регулярно собираются достоверные и объективные сведений во всех сферах – политической, социальной, демографической, экономической и т. д.

Пример! Отрасли с самыми большими зарплатами

В ФСГС сформированы грандиозные информационные ресурсы, базы и банки данных, доступ к которым имеет всякий.

Самые известные, популярные из них:

ЕМИСС – Единая межведомственная информационно-статистическая система, которая связывает воедино официальные учетные фонды разных министерств и ведомств. Из 6 450 показателей 3 431 – Росстата.

Скрин главной страницы сайта fedstat

Интересные цифры! Сколько в России пенсионеров

Статистический регистр – представляет собой ежедневно актуализируемую базу данных о хозяйствующих субъектах, созданных и зарегистрированных в РФ. В нем по каждой организации есть наименование, адрес, виды хозяйственной деятельности, другие регистрационные данные.

Скрин с сайта gks

Росстат обязан обеспечить ведение учета с использованием методов, соответствующих международным стандартам. Иначе нас невозможно было бы сравнить с другими странами мира.

ФСГС выпускает самые разные статистические публикации о социально-экономическом положении государства, федеральных округов, регионов, городов, как комплексные, так и узкоотраслевые.

Территориальные органы обеспечивают конфиденциальность показателей, полученных от предприятий, организаций, предпринимателей, граждан в ходе статнаблюдений, обследований, переписей, их хранение и защиту.

Росстат контролирует, как в стране выполняются законы, касающиеся госстатистики.

Все это – дело рук людей, называемых статистиками.

Фото: работник службы

Примечание! Не нужно их путать со статистами, которых можно встретить в театре или кино, исполняющими незначительные роли без слов.

В Росстате трудятся статистики, а требования к ним предъявляются немалые:

  • образование – математическое или финансово-экономическое;
  • знание основ экономической статистики, методов анализа показателей работы организаций;
  • умение работать с финансовой отчётностью предприятий;
  • владение базовыми компьютерными программами.

Где может пригодиться информация от Росстат?

Информация о статусе дел в государстве, необходима не только органам самоуправления, но и самим предпринимателям.

Детализированная информация об экономическом положении  каждого региона страны (также  муниципального и  населенного пунктов) составляет информационную базу.

С помощью этой информации органы власти готовы принять обоснованные решения по управлению и  совершенствованию таможенной, инвестиционной, налоговой политики.

К примеру, к действенному инструменту регулирования экономикой относится фискальная политика.

Но как понять, действительно и насколько высока налоговая нагрузка на производителя? И чтобы дать правильную оценку этого уровня, надо понять состояние, в котором находится та или иная отрасль.

Средняя скорость движения

При изучении задач на движение мы определяли скорость движения следующим образом: делили пройденное расстояние на время. Но тогда подразумевалось, что тело движется с постоянной скоростью, которая не менялась на протяжении всего пути.

В реальности, это происходит довольно редко или не происходит совсем. Тело, как правило, движется с различной скоростью.

Когда мы ездим на автомобиле или велосипеде, наша скорость часто меняется. Когда впереди нас помехи, нам приходиться сбавлять скорость. Когда же трасса свободна, мы ускоряемся. При этом за время нашего ускорения скорость изменяется несколько раз.

Речь идет о средней скорости движения. Чтобы её определить нужно сложить скорости движения, которые были в каждом часе/минуте/секунде и результат разделить на время движения.

Задача 1. Автомобиль первые 3 часа двигался со скоростью 66,2 км/ч, а следующие 2 часа — со скоростью 78,4 км/ч. С какой средней скоростью он ехал?

Сложим скорости, которые были у автомобиля в каждом часе и разделим на время движения (5ч)

Значит автомобиль ехал со средней скоростью 71,08 км/ч.

Определять среднюю скорость можно и по другому — сначала найти расстояния, пройденные с одной скоростью, затем сложить эти расстояния и результат разделить на время. На рисунке видно, что первые три часа скорость у автомобиля не менялась. Тогда можно найти расстояние, пройденное за три часа:

66,2 × 3 = 198,6 км.

Аналогично можно определить расстояние, которое было пройдено со скоростью 78,4 км/ч. В задаче сказано, что с такой скоростью автомобиль двигался 2 часа:

78,4 × 2 = 156,8 км.

Сложим эти расстояния и результат разделим на 5

Задача 2. Велосипедист за первый час проехал 12,6 км, а в следующие 2 часа он ехал со скоростью 13,5 км/ч. Определить среднюю скорость велосипедиста.

Скорость велосипедиста в первый час составляла 12,6 км/ч. Во второй и третий час он ехал со скоростью 13,5. Определим среднюю скорость движения велосипедиста:

Дилемма (компромисс) смещения и дисперсии

Смещение и дисперсия вместе составляют итоговую ошибку предсказания модели машинного обучения. В идеальном мире и смещение маленькое, и дисперсия низкая. На практике это связано в дилемму: уменьшение одной из величин неизбежно приводит к росту другой.

Если не вдаваться в детали, обучение модели — это построение функции, график которой лучше всего ложится на точки из тренировочного набора данных.

Модель может нарисовать нам довольно сложную и заковыристую функцию, график, который хорошо охватывает все точки в тренировочных данных. Но если наложить этот график на новые точки (то есть дать функции новые данные), она сработает хуже — так и получается смещение.


Иллюстрация: mofusand

С другой стороны, обучение на разных тренировочных наборах или даже разных датасетах с большой вероятностью даст разброс в предсказаниях, то есть высокую дисперсию.

Более сложные модели дают низкое смещение, но чувствительны к шуму и колебаниям в новых данных, поэтому их предсказания разбросаны. Если при обучении наш снайпер будет учитывать незначимые факторы (вроде цвета мишени или направления магнитного поля Земли), то в другом тире, с другой винтовкой или в другую погоду точность его стрельбы упадёт.

Простые модели, напротив, упускают важные параметры и «бьют кучно, но мимо»

Как другой снайпер, не приученный обращать внимание на ветер и расстояние до мишени

В процессе настройки модели машинного обучения дата-сайентист всегда ищет компромисс между смещением и дисперсией, чтобы уменьшить общую ошибку предсказания.

Кстати, эта дилемма встречается не только в статистике и машинном обучении, но и в обучении людей. В исследовании 2009 года утверждается, что люди используют эвристику «высокое смещение + низкая дисперсия»: мы заблуждаемся, зато очень уверенно.

Учтите это, если захотите сделать свой ИИ более похожим на человека.

Похожие термины:

  • (Bayesian statistics) Статистическая модель, предполагающая обновление сложившихся представлений в свете полученного опыта. Считается, что представления о параметрах регулярно пересматриваются на основ

  • См. Статистика банковская

  • применение статистических методов для оценки состояния, коммерческих возможностей и перспектив развития компании.

  • 1) статистика государственного бюджета – важнейший раздел финансовой статистики; 2) статистика семейных бюджетов – составная часть социальной статистики.

  • направление статистики, изучающее данные о жизненном уровне семей различных категорий населения. Данные статистики бюджетов характеризуют по отдельным социальным группам населения уровень дох

  • Международная статистика цен — раздел международной финансовой статистики Международного валютного фонда. Статистика цен используется для корректировки уровня заработной платы, определения ст

  • (от латинского «camera» – казна, «status» – государство) – немецкая школа камеральной статистики описательного государствоведения, сформировавшаяся в XVIII в. К. с. считают предшественницей экономическо

  • Включает в себя два отчета — по 60000 домашних хозяйств и 375000 коммерческих организаций и госучреждений, а также данные о численности работников, за исключением занятых в сельском хозяйстве, продолжи

  • система показателей, характеризующая состояние животноводства. К ним относятся показатели численности, состава и воспроизводства поголовья. При планировании и учете животных классифицируют по

  • См. Статистика демографическая

  • (Durbin-Watson statistic, DW) Статистический показатель, используемый для проверки автокоррелированных нарушений. Если zt являются разностями рядов, т. е. разницами между фактическими рядами и значениями, пред

  • (vital statistics) Статистика населения страны или региона, включающая в себя статистику рождаемости, смертности, браков и т.д.

  • Наука, ставящая перед собой задачу сбора, обработки и анализа экономических показателей, таких как уровень производства, доходы и расходы бюджета, объем экспорта и импорта, уровень безработицы, те

  • отрасль социальной статистики, изучающая явления и процессы, характеризующие культурный уровень жизни народа. В зависимости от объектов изучения и свойственных им специфич. особенностей статист

  • статистические данные, на основании которых оценивается проведение тех или иных рекламных акций в рамках данной рекламной кампании.

  • раздел статистики, изучающий материальное производство с целью выявления пропорций, тенденций и закономерностей развития экономики.

  • федеральное государственное унитарное предприятие «Издательство «Финансы и статистика» Министерства Российской Федерации по делам печати, телерадиовещания и средств массовых коммуникаций. Об

  • отрасль социально-экономической статистики. Предмет изучения – количественный и качественный анализ финансовых рынков. В круг задач, решаемых С.ф.р., входят: разработка методологии и организация

  • государственная централизованная система сбора и обработки статистической информации.

  • раздел ст-ки транспорта, изучающий объем, состав и направление перевозок грузов за определенный период и в динамике. Ед. наблюдения является отправка, оформленная перевозочными документами. Систе

Отчетность

Здесь размещены статьи, относящиеся к получение кодов и форм, сдаче отчётности. Всё это входит в систему сбора отчётности, которой пользуются миллионы граждан по всей стране. Имеется и Клуб деловой журналистики, где также выкладываются ссылки или статьи о пресс-конференциях, проводимых в рамках официальной деловой деятельности исполнительного органа.

В отдельном пункте собран весь пакет материалов СМИ, где не обошлось без подробностей брифингов или интервью сотрудников Росстата. В следующем пункте есть данные о личной пресс-службе органа, там указаны:

  • Порядок подачи запросов от СМИ.
  • Особенности коммуникационной политики Росстата.
  • Реестр ответов средствам массовой информации на запросы.
  • Отчетность о проделанной работе.

Отдел СМИ играет особую роль в этой структуре.

Информационно-аналитическая работа

Огромную работу проводят территориальные органы Росстата, направляя ее на формирование полной и достоверной информации.

Открытость деятельности Росстата дает возможность различным категориям пользователей получать своевременную статистическую информацию в любой сфере жизнедеятельности нашей страны.

Из года в год, проводя анализы получаемой информации, территориальные органы стараются расширить тематику изданий в области статистики и информационно-аналитических сведений, ставя для себя ориентиры в результате изученных потребностей пользователей.

Для предоставления доступа широкому кругу пользователей  к информации статистики социально-экономических процессов, которые происходят в каждом субъекте Российской Федерации, имеют активное использование официальных интернет-порталов территориальных органов статистики.

Многие территориальные органы стараются обеспечивать своевременное размещение на своих интернет-порталах различных информационных и официальных материалов и изданий не только отдельно по региону.

Но по муниципальным образованиям. Благодаря имеющимся разработанным графикам:

  • ведется срочная публикация информационных вопросов, имеющих актуальность в настоящее время с содержанием основных показателей развития;
  • новостные ленты имеют регулярное пополнение информацией о ведение деятельности, размещение информации о выпусках изданий по статистике;
  • поддержание в действующем состоянии рубрики «Муниципальная статистика».

Для знакомства с документами, имеющих регламентирующий характер достаточно зайти в подраздел «Нормативные документы».

Нормативные документы на официальном сайте Росстата

Для размещения особенно значимой информации касательно деятельности субъектов экономической деятельности используется единый федеральный реестр.

Здесь формируется юридически значимая информация, связанная с деятельностью:

  • юридических и иностранных лиц;
  • физических лиц и индивидуальных предпринимателей;
  • государственных органов;
  • органов местного самоуправления.

Открытость информации предполагает ее представление любому нуждающемуся в ней в свободном доступе всей статистической официальной информации, которая формируется в рамках Федерального плана статработ и официальной статметодолгии.

А также формирование обратной связи с разными категориями граждан (пользователей).

Информационное размещение основных показателей, пресс-релизов, экспресс-информаций, в том числе и отдельных материалов по статистике в области торговли в оперативном режиме на официальных сайтах территориальных органов в условиях информационно-телекоммуникационной сети «Интернет» регулируется приказом Росстата.

Территориальными органами велась работа, направленная на совершенствование представления аналитических данных по вопросам, связанным с внешней торговлей.

Были использованы носители информационных материалов, которые представляются региональными органами таможни.

Основные характеристики показателей по внешнеторговому обороту со странами дальнего и ближнего зарубежья (участники СНГ) включены в сборники, записки и бюллетени.

Можно ознакомиться с динамикой вывоза некоторых видов продукции в Республику Беларусь, а также ввоза некоторых категорий продуктов из Республики Беларусь в регионы России.

Предлагаемый к ознакомлению материал носит сводный характер и в комплексе он готов представить внешнюю торговлю федеральных и региональных округов, с отображением развития международного туризма в субъектах Российской Федерации.

Меры описательной статистики

Задача описательной статистики, как следует из названия, — дать хорошее описание данных. Она не для предсказаний, выводов или преобразований — только внешняя форма данных, измеренная в показателях.

Ключевые показатели, применяемые в описательной статистике (их ещё называют мерами или, если точнее, ), — это:

  • Среднее: чаще всего вычисляется как среднее арифметическое. Просто складываем все значения, делим на их количество — и вуаля, средняя температура по больнице готова.
  • Медиана: если выстроить все данные по возрастанию и найти середину этого ряда, это как раз и будет медиана. Одна половина из значений данных будет больше медианы, а другая — меньше.
  • Мода: значение в наборе данных, которое встречается чаще всего. Запомнить очень легко: мода — самое популярное из значений, то, что «носят все».

Посмотрите это небольшое видео о среднем, медиане и моде на сайте Академии Хана — образовательного ресурса, который славится доходчивыми объяснениями. Там всё просто, на понятном русском языке.

Кроме трёх перечисленных, есть и другие статистические показатели — например, . Главная из них — дисперсия, о ней ниже. Все они нужны, чтобы понять, какие перед нами данные и о чём именно они рассказывают.

Семплирование

Предположим, вам требуется решить важную задачу: выяснить среднюю ширину морды домашних котов нашей страны. Прямой способ, то есть измерение всех домашних питомцев, невозможен по ряду объективных причин. Придётся ограничиться выборкой — взять какое-то число животных, измерить морды именно им и сделать выводы по итогам только этих исследований.


Иллюстрация: Pixabay

Но тут сразу же возникают вопросы:

  • Сколько и каких котов отобрать для замера?
  • Почему именно этих, а не других?
  • Какие есть гарантии, что вычисленное значение действительно будет средней шириной морды всех котов России?

Семплирование — это группа статистических методов и приёмов, отвечающих на эти вопросы. С помощью семплирования мы формируем нашу выборку так, чтобы она наилучшим образом отражала свойства генеральной совокупности — то есть свойства всех котов страны.


Качественная выборка сохраняет свойства всей генеральной совокупности

Иными словами, вы не можете измерить N первых попавшихся котов и обобщить результат для остальных. Выборка должна хорошо «сидеть» во всей популяции кошек, чтобы можно было делать обоснованные выводы. Такую выборку называют релевантной.

Кстати, статистика и котики — близнецы-братья. После выхода одноимённой книги Владимира Савельева мы говорим «статистика», а подразумеваем «котики», и наоборот. И смело рекомендуем эту книгу всем, кто дочитал до этого места.

В Data Science методы семплирования применяются при разработке, подготовке и оценке датасетов, чтобы они одновременно и были упорядоченными, и соответствовали реальности.

Статистика — что это

Эта отрасль знаний по праву относится к разряду древнейших. Причиной ее возникновения стала потребность общества в количественных данных различного рода, без которых никак нельзя было управлять государством, изучать явления и процессы, происходящие в обществе.

Термин произошел от латинского «статус», переводится как «состояние дел».

В 1746 г. он стал наукой. «Статистикой» немецкий ученый Готфрид Ахенвалль предложил заменить название курса «Государствоведение», который читали студентам в университетах Германии. Именно с этой поры развивается новая учебная дисциплина.

Но намного раньше проходили переписи населения в Древнем Китае, сопоставлялся военный потенциал государств, учитывалось имущество граждан в Риме. Что это, если не статучёт?

Фото: статистика на пальцах в Древнем Египте

Г. Успенский в своей книге «Четверть лошади» отметил просто и довольно верно:

«та «сущая» правда нашей жизни, о которой мы совершенно отвыкли говорить человеческим языком, и нужно только раз получить интерес … к … цифровой крупе, которою усеяны статистические книги и таблицы, так вся эта информация начнет принимать человеческие образы и облекаться в картины ежедневной жизни».

У статистики множество разделов, ведь она охватывает почти все сферы деятельности человека и общества.

Предпринимательство

Это дополнительный раздел, он описывает преимущества, экономические развитие России и стран мира. При ссылке на источник – вы точное знаете откуда были получены данные, что становится убедительным доказательством.

Также здесь проясняется структура: государственная статистика является инструментом для решения поточных вопросов, в ее состав входит Центральный аппарат на Федеральном уровне, плюс территориальные органы Росстата, расположенные по всей стране.

Здесь есть перечень:

  • «Конкурсы», где изложены недавние мероприятия, а также размещены извещения о проведении конкурсов в электронном формате.
  • Об аукционах – списки текущих и проведенных закупках.
  • Ряд незаполненных подзаголовков.
  • Приказы о контрактных службах.
  • Список членов комиссий, осуществляющих закупки.
  • Перечень нормальных документов. Это Приказы Росстата и Федеральные законы.
  • Информация о госзакупках, производимых территориальными органами Росстата.
  • Статистические данные об осуществлении закупок.
  • Контрактные сведения (Росстата с физическими лицами).

Какую информацию можно получить на сайте?

Помимо информативных сведений на странице имеется много ссылок на интересующие данные в области статистики и по показателям, представленных в виде графической или текстовой информации.

Также в этом разделе имеются ссылки на используемую в работе нормативно-справочную документацию, методологию, на различные интерактивные статистические сервисы.

Для получения исчерпывающей информации о работе Росстата, о его деятельности можно зайти в соответствующий раздел «О Росстате».

Здесь отображены главные задачи и цели компании, информационные материалы о проделанной работе, контактная информация, а также получить недостающую информацию в разделе «часто задаваемые вопросы».

Блок «Официальная статистика»

Для аналитиков-маркетологов большой интерес вызывает блок «официальная статистика». В основном он содержит статистическую информацию по показателям макроэкономики.

При нажатии любого раздела осуществляется переход на страницу с официальной статистикой, а при выборе нужного пункта в меню «Содержание» (с правой стороны) выгружается список содержащихся документов и необходимой информации.

Представление данных по статистике может быть отображена в различном виде:

  • в таблице;
  • в базе данных;
  • в кубе;
  • в карте.

Каждый вид доступен к просмотру и к выбору для удобства пользования.

Набор документов и данных в разделе «Официальная статистика»

Блоки:

  • методология – дает пояснения о способах получения данных с методикой их исследования
  • оперативная информация – документы, связанные с работой аналитика. В этом блоке отображается последняя обработанная информация;
  • официальные публикации – здесь собрана информация, подготовленная сотрудниками Росстата отдельно по каждой теме.

Также здесь можно получить информацию об уровне средней заработной платы в нашей стране, уровне ВВП, а также численности населения.

Передвигаясь по ссылкам можно найти информацию о регламентирующих деятельность Росстата документах, об имеющихся итогах.

Также в этом разделе можно ознакомиться с результатами статистических наблюдений и расчетными материалами, подготовленными службой государственной статистики.

Все рубрики официального портала Росстата доступны к регулярному обновлению актуальной информацией и действующими на данный момент цифрами. Для облегчения восприятия такой информации часть цифровых и некоторых других данных представлены в форме таблицы.

Меры центральной тенденции

Представим, что у нас есть набор данных из пяти чисел:

Среднее значение

Среднее значение (обозначаемое греческой буквой «мю» — μ) — некоторое число, заключенное между наименьшим и наибольшим значениями в наборе данных. Чтобы вычислить среднее значение, нужно сложить все значения и разделить получившуюся сумму на количество этих значений.

Медиана

Медиана — это середина набора данных. Чтобы вычислить медиану, необходимо рассортировать все значения (в порядке возрастания или убывания) и выбрать то значение, которое находится посередине.

Если количество точек данных четное, то для нахождения медианы просчитывается среднее значение двух точек по середине.

Медиана менее восприимчива к выбросам, чем среднее значение, и, следовательно, для выбора определенного значения мы должны принять во внимание то, как выглядит распределение данных

Мода

Мода — это наиболее распространенное значение в наборе данных. Чтобы вычислить моду, необходимо найти число, которое встречается наиболее часто.

Мода обычно важна для дискретных числовых данных, но не для непрерывных.

Где можно узнать территориальный код Росстата для электронной отчетности?

Несмотря на распространенность передачи статистической отчетности в электронном формате, Росстат пока что не разработал централизованной базы данных кодов ТОГС либо официальных правовых актов, где они были бы перечислены. Тем не менее нужный код узнать довольно просто, и для этого есть несколько способов:

  1. Можно позвонить в территориальное представительство Росстата в регионе — по контактным данным на сайте ведомства — и спросить код у любого специалиста.
  2. Узнать непосредственно на сайтах территориальных отделов Росстата в разделе «Электронная отчетность».
  3. Можно сделать поисковый запрос в Google или «Яндекс», например: «код ТОГС Казань» — и в ответе поисковых систем на ваш запрос будут доступны требуемые сведения.
  4. Можно запросить нужные коды у оператора статистической отчетности или удостоверяющего центра, в котором фирма оформила ЭЦП для отправки документов через интернет. Некоторые из операторов размещают на своих сайтах удобные интерфейсы, с помощью которых можно найти нужный код ТОГС. Подобный сервис есть, к примеру, на сайте компании «Такском».

Код органа статистики нужен для отправки электронной статистической формы именно в тот ТОГС, который отвечает за сбор данных с территории, где ведет деятельность отчитывающаяся фирма. Он указывается в программе, задействуемой для передачи данных в Росстат. Узнать этот код можно, позвонив в соответствующий ТОГС, сделав запрос в поисковике или обратившись к поставщику ПО для отправки электронной отчетности.

Ознакомиться с иными полезными сведениями об отправке отчетности в Росстат вы можете в статьях:

Заключение

Data Science — не просто комбинирование модных моделей в Jupyter-ноутбуке. Профессионалы в этой области глубоко понимают природу данных и то, как они могут помочь в принятии конкретных бизнес-решений.

Всё это изучалось в статистике задолго до того, как первый дата-сайентист набрал свой первый import pandas as pd. Статистика — фундамент всей современной науки о данных, включая машинное обучение, глубокие нейросети и даже искусственный интеллект.

В нашем курсе «Профессия Data Scientist» статистике уделено самое пристальное внимание. Вы не ударите в грязь лицом ни на тусовке статистиков, ни на настоящем DS-собеседовании

Приходите!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector