Актуальные стандарты обнаружения, распознавания и идентификации для систем видеонаблюдения

Logo
07 Февраля 2019г
- 0 голосов

Современные инструменты видеоаналитики успешно задействуются в самых разнообразных сферах, начиная созданием высокоэффективных систем контроля доступа и заканчивая оптимизацией бизнес-процессов. Несмотря на все многообразие программных комплексов данного класса, на базовом уровне каждый из них должен уметь решать три основные задачи:

  • обнаружение — определение факта появления объекта в зоне интереса;
  • распознавание — определение типа наблюдаемого объекта (транспортное средство,человек);
  • идентификация — сравнение свойств объекта с имеющимся образцом для установления их соответствия (машина клиента, сотрудник компании).

Для примера рассмотрим СКУД на охраняемой территории. В зоне интереса (КПП) был обнаружен движущийся объект, после чего интеллектуальный алгоритм определяет его тип. Если в кадре появился человек, а не, например, бездомный кот, осуществляется идентификация: черты лица сличаются с имеющейся базой данных. В процессе сверки выяснилось, что перед нами сотрудник компании, имеющий соответствующий уровень допуска. На контроллер электромагнитного замка подается сигнал и ворота открываются, а событие фиксируется в журнале.

Точность функционирования подобной системы зависит отнюдь не только от того, насколько совершенные алгоритмы она использует, но и, в первую очередь, от качества картинки, получаемой с камер видеонаблюдения. Последнее же определяется правильным подбором оборудования с учетом его технических характеристик, особенностей освещения и рядом других факторов. Актуальным стандартам идентификации и распознавания посвящена наша сегодняшняя статья.

Фокусное расстояние и угол обзора видеокамеры

Первое, на что необходимо обратить внимание — фокусное расстояние объектива (f), которое напрямую влияет на угол обзора видеокамеры, причем зависимость между этими величинами обратно пропорциональна: чем меньше фокусное расстояние, тем больше угол обзора (объекты сцены при этом оказываются визуально дальше), и наоборот.

Фокусное расстояние, (мм) Угол обзора, (°) Оптимальная дистанция до объекта, (м)
2.8 86 0–5
3.6 72 0–6
6 48 5–10
8 30 10–20
12 25 25–35
16 17 35–50

В моделях с вариофокальным объективом фокусное расстояние изменяется в широких пределах. Для расчета угла обзора при различных значениях f можно воспользоваться следующей формулой:

α = 2arctg(d/2f)

В приведенном выражении:

  • α — угол обзора камеры (в градусах);
  • d — горизонтальный или вертикальный размер светочувствительного сенсора (в мм);
  • f — фокусное расстояние объектива (в мм).

Следует помнить, что здесь не учитывается явление сферической аберрации, особенно ярко выраженной у короткофокусных (f < 28 мм) объективов. Термин обозначает погрешность получаемого изображения, вызванную несовпадением фокусов лучей света, проходящих через собирающую линзу на разных расстояниях от оптической оси, из-за чего периферические участки кадра искажаются и реальный угол обзора оказывается меньше расчетного. Данное явление получило название дисторсии. Ее вычисление является достаточно сложной процедурой: как правило, калибровка камеры осуществляется эмпирически во время монтажа, при этом целевые показатели искажений лежат в пределах 5–10%.

Переменная «d» требует дополнительных пояснений. В технических спецификациях запись вида «⅓ дюйма» указывает на диагональ светочувствительной матрицы, ширина и высота которой могут иметь соотношение 4:3 или 16:9. Как следствие, размеры двух матриц разных форматов с идентичной диагональю будут отличаться.

Диагональ матрицы Формат
4:3 16:9
дюймы мм Ширина, мм Высота, мм Ширина, мм Высота, мм
1/4 4.23 3.39 2.54 3.69 2.08
1/3 5.64 4.52 3.39 4.92 2.77
1/2.8 6.05 4.84 3.63 5.27 2.96
1/2.7 6.27 5.02 3.76 5.47 3.07
1/2.5 6.77 5.42 4.06 5.9 3.32
1/2 8.47 6.77 5.08 7.38 4.15

Поскольку, как мы выяснили, фокусное расстояние определяет не только горизонтальный угол обзора, но и оптимальную дальность, опираясь на данный параметр можно приблизительно определить дистанции обнаружения, распознавания и идентификации для конкретной модели видеокамеры.

Фокусное расстояние, (мм) Дистанция обнаружения, (м) Дистанция распознавания, (м) Дистанция идентификации, (м)
2.8 23.33 4.66 1.86
3.3 27.5 5.5 2.2
3.6 30 6 2.4
4.2 35 7 2.8
6 50 10 4
8 66.66 13.33 5.33
9 75 15 6
12 100 20 8
22 183.33 36.66 14.66
50 416.67 83.33 33.33

Расчет подходящего разрешения видеокамеры

Фокусное расстояние является весьма важным, но отнюдь не единственным параметром, определяющим соответствие камеры заданным эксплуатационным требованиям: способность к формированию картинки, качества которой будет достаточно для распознавания и идентификации объектов во многом зависит от ее разрешения. В силу отсутствия единых отраслевых стандартов на момент появления первых систем распознавания лиц, инсталляторы стали ориентироваться на данные научно-исследовательского отдела МВД Великобритании для видео формата 4CIF (704x576 пикселей).

Задача Вертикальный размер изображения человека (в % от высоты кадра) Линейное разрешение (в пикселях/м)
Обнаружение 10 20
Распознавание 50 100
Идентификация 100–150 250

Для наглядности рассмотрим конкретный пример. На картинке ниже один и тот же человек снят так, что его изображение занимает 20%, 40% и 140% от высоты кадра. В первом случае система видеоаналитики сможет обнаружить движущийся объект, во втором — однозначно распознать в нем человека, а в третьем — провести идентификацию по лицу.

Аналогичные пропорции были рассчитаны и для других распространенных аналоговых форматов.

Задача WSVGA SVGA VGA PAL 2CIF CIF QCIF
Обнаружение 7 9 10 14 25
Распознавание 34 42 50 70 139
Идентификация 67 84 100 139

Когда речь заходит о цифровых камерах высокой четкости, перечисленные выше соотношения становятся неактуальны. Применительно к современным устройствам принято ориентироваться на количество пикселей, участвующих в формировании объекта, подлежащего идентификации. Такой подход более логичен, так как, например, ширина человеческого лица в среднем составляет около 16 сантиметров, тогда как рост и комплекция у разных индивидов могут в значительной степени отличаться.

Что же касается действующих нормативов, то здесь все не так однозначно. Практика показала, что следование рекомендациям, предложенным Европейским комитетом электротехнической стандартизации (CENELEC) отнюдь не всегда оправдано. Большинство профессиональных проектировщиков опираются на данные Национальной лаборатории судебной экспертизы Швеции которые, кстати, практически полностью совпадают с результатами собственных исследований инженеров Hikvision.

Задача Минимальное кол-во пикселей на ширину лица Кол-во пикселей на сантиметр Кол-во пикселей на дюйм
Обнаружение 4 0.25 0.6
Распознавание 20 1.25 3.2
Идентификация в благоприятных условиях 40 2.5 6.3
Идентификация в неблагоприятных условиях 80 5 12.5

Что же касается автомобильных номеров, то для их успешной идентификации вертикальный размер цифр и букв должен составлять не менее 15 пикселей.

Актуальность приведенных параметров хорошо заметна на следующей иллюстрации.

Ключевым преимуществом шведской классификации является разделение условий наблюдения на две категории (чего, к сожалению, нет в документах CENELEC):

  • сложные — уровень освещения недостаточен или значительно меняется в короткий промежуток времени, наблюдаемые объекты передвигаются с большой скоростью, либо видны под углом, в результате часть деталей оказывается вне поля зрения камеры;
  • благоприятные — наблюдаемые объекты передвигаются с умеренной скоростью, мелкие детали, необходимые для распознавания, хорошо видны в кадре, освещение достаточное для получения качественной картинки.

Таким образом, зная фокусное расстояние и разрешающую способность видеокамеры, можно подобрать модель, способную осуществлять распознавание и идентификацию объектов на заданной дистанции. Ниже приведены данные для наиболее распространенных в настоящее время разрешений.

Разрешение по горизонтали, (пикс.) Фокусное расстояние, (мм) Оптимальная дальность, (м) Максимальная ширина сцены, (м)
1280 3.3–12 6 2.6
2592 2.8–8 9 5.2
1920 5.1–51 41 3.8
736 3.3–119 50 1.5
1280 4.4–132 67 2.6

Роль освещения в распознавании и идентификации

Настало время поговорить о таком факторе, как уровень освещенности. Здесь все достаточно очевидно: чем хуже подсветка, тем сложнее различить символы или мелкие черты лица человека, попавшего в кадр. Давайте сравним изображения, полученные идентичным оборудованием, но при разном освещении.

A. кадр сделан при интенсивности светового потока в 1600 люкс, лицо человека хорошо освещено;

B. хотя фронтальный источник света освещает лицо с силой в 350 люкс, фоновая засветка имеет значительно большую интенсивность, в результате чего идентификация становится невозможной (фотографы называют данную ситуацию «контражур»);

C. качественная фронтальная подсветка всего в 7 люкс при условии отсутствия контрового света обеспечивает приемлемое качество изображения, достаточное для идентификации;

D. при освещенности 1.5 люкса идентификация осложняется из-за паразитных шумов.

Для повышения качества картинки в сложных условиях освещения современные видеокамеры задействуют продвинутые алгоритмы обработки изображения, в числе которых необходимо выделить:

  • BLC (компенсация задней засветки) — нивелирует влияние контражура за счет увеличения времени экспозиции, однако задний план при этом значительно теряет четкость;
  • HLC (компенсация яркой засветки) — при обнаружении источника слишком яркого света создается дополнительный кадр, в котором данные из соответствующей области игнорируются (актуально для идентификации автомобильных номеров в темное время суток);
  • WDR (широкий динамический диапазон) — функция корректировки яркости и контраста сцены путем программного объединения кадров, сделанных с разной экспозицией;
  • DNR (цифровое подавление паразитных шумов) — анализирует изображение и «исправляет» искаженные пиксели, помогая устранить графические артефакты, возникающие в условиях низкого освещения,.

При всех преимуществах перечисленных методов делать ставку исключительно на современные технологии, как минимум, опрометчиво: хотя они и способны стать отличным подспорьем, при проектировании системы видеонаблюдения следует постараться достичь оптимальных условий освещения. Во-первых, даже самые совершенные фильтры имеют побочные эффекты: например, DNR «замыливает» кадр, что затрудняет распознавание удаленных объектов.

Во-вторых, надо учитывать, что такой параметр, как глубина резкости, зависит не только от фокусного расстояния, но и от уровня освещенности: данный показатель возрастает при уменьшении апертуры диафрагмы.

Наиболее благоприятные условия для работы систем видеоаналитики обеспечивает равномерное фронтальное освещение от 150 люкс (достаточно для идентификации номеров транспортных средств) до 300–500 люкс (для идентификации лиц).


Теоретические расчеты позволяют с достаточно высокой точностью подобрать наиболее подходящую камеру с учетом технических характеристик самого устройства и специфики охраняемого объекта. Тем не менее на все 100% предсказать, насколько эффективной окажется спроектированная система видеонаблюдения практически невозможно, поэтому инсталляторы используют в своей работе различные методы тестирования видеонаблюдения на предмет соответствия заданным требованиям. О наиболее эффективных из них мы расскажем в одной из следующих публикаций.

Актуальные стандарты обнаружения, распознавания и идентификации для систем видеонаблюдения