Цифровое представление цвета

Введение

Три пятна краски на белой бумаге, освещённые белым светом

Цвет — это очень субъективное понятие. В природе существуют световые волны разной частоты. Исследования показали, что определённый диапазон частот (видимый свет) воспринимается человеческим глазом. Но воспринимается не каждая волна по отдельности, а их совокупность. Причём есть три основных частоты, «смешивая» которые можно получить почти все воспринимаемые человеком цвета. Если эти частоты излучаются отдельно (например, лазером), то воспринимаются они как красный, зелёный и синий цвета. Отсюда родилась модель RGB. Она очень удобна для технической реализации в устройствах, которые свет излучают (мониторы и проекторы). Так как там из одной точки можно «посветить» тремя цветами разной интенсивности и таким образом, используя только 3 основных цвета, получать почти весь видимый спектр.

Надо понимать разницу между возможностью контролировать свет излучаемый и поглощаемый.

Если на белую стену посветить красным, зелёным и синим прожекторами, то на пересечении областей мы получим участки, которые «излучают» сразу два цвета: красный + зелёный = yellow, зелёный + синий = cyan, синий + красный = magenta. В данном случае мы контролируем излучаемый свет, тем самым добавляя основные цвета друг к другу в нужных пропорциях (аддитивная модель).

Но представим ситуацию, когда мы не можем излучать свет самостоятельно. Это случай журналов и картин. В природе естественным является белый свет — смесь волн разной частоты, но примерно одинаковой энергии (тепловое излучение). Когда этот свет попадает на поверхность, покрытую определённым веществом, волны одних частот от неё отражаются, волны других частот поглощаются веществом. Тогда можно взять три основных вещества (краски), которые по отдельности отражают только цвета cyan, magenta и yellow, и, смешивая их в определённой пропорции, получить почти все существующие цвета. Таким образом мы контролируем поглощаемый свет, вычитая из белого ненужные нам цвета (субтрактивная модель).

Например, смешивая cyan (голубой; поглощает красный, отражает зелёный и синий) и magenta (розовый; поглощает зелёный, отражает красный и синий) мы получаем поверхность, которая поглащает красный и зелёный и, соответственно, отражает только синий. Отсюда появилась цветовая схема CMYK, которая используется при печати. «K» означает четвёртую, чёрную, краску. Её используют по техническим соображениям.

Color vision. «Eye, Brain, and Vision», Hubel D.

Цветовые модели

XYZ

XYZ — теоретическая модель, созданная CIE (Commission internationale de l'éclairage) на основе исследований человеческого цветовосприятия. Эта модель вмещает все видимые человеку цвета. Она разработана таким образом, что два компонента представляют цвет, а третий — яркость (Y).

xyY

Для иллюстраций используют модель xyY, получающуюся из XYZ простыми преобразованиями. При этом трёхмерными изображениями обычно не заморачиваются и компонент яркости отбрасывается. Получающаяся диаграмма xy имеет одно замечательное свойство: если выбрать на ней три основных (primary) цвета, то внутри образуемого ими треугольника окажутся все цвета, которые можно представить при помощи этих праймари. Вообще, это распространяется на любой n-угольник. На этом свойстве и основана модель RGB.

RGB и YCbCr

RGB удобна для захвата цветов камерой и воспроизведения их на мониторе или проекторе. Однако для передачи и кодирования сигнала она мало пригодна по нескольким причинам:

Считается, что человеческий глаз больше замечает изменения яркости, чем цветности. Модель RGB не позволяет это использовать.
Когда появилось цветное телевидение, необходимо было сохранить совместимость с чёрно-белыми телевизорами.

Поэтому для передачи цветного сигнала была разработана модель YUV, которая использовала один компонент (Y) для передачи яркости (чёрно-белое телевидение) и два дополнительных компонента (UV) для передачи цвета. В цифровом кодировании схожая модель зовётся YCbCr.

CIE Color Space, Gernot Hoffman

Цветовые пространства

ITU-R BT.709, EBU Tech. 3213, SMPTE C (SMPTE RP 145), sRGB

Цветовое пространство (gamut) модели RGB определяется выбором праймари и точки белого. Часто выбор диктуется некими практическими соображениями, например, наличием в производстве соответствующего люминофора.

CIE RGB

Это пространство основано на трёх монохроматических цветах. E — точка белого.

sRGB

Стандарт, созданный HP и Microsoft в 1996 году. Данный стандарт применяется повсеместно: компьютерные мониторы, интернет, принтеры…

ICC: Three component color encoding registry

RGB → YCbCr

Преобразование из RGB в YCbCr выполняется по формуле:

${\begin{aligned}Y&=K_{R}\cdot R+K_{G}\cdot G+K_{B}\cdot B\\C_{B}&=0.5\cdot {\frac {B-Y}{1-K_{B}}}\\C_{R}&=0.5\cdot {\frac {R-Y}{1-K_{R}}}\end{aligned}}$

Причём, $K_{G}=1-K_{R}-K_{B}$ .

Коэффициенты $K_{R}$ и $K_{B}$ (matrix coefficients) зависят от используемого цветового пространства и отдельно определяются соответствующими стандартами. При этом стандарты, использующие одинаковые праймари и точку белого, могут декларировать разные коэффициенты преобразования, и наоборот.

Гамма-коррекция

Воспринимаемая человеком яркость изображения (lightness) нелинейно зависит от «реальной» яркости (luminance): тёмные оттенки человек различает лучше чем светлые. Чтобы избежать неравномерных потерь при передаче и кодировании сигнала, линейные значения RGB или YCbCr должны быть преобразованы в нелинейные R′G′B′ или Y′CbCr. Такое преобразование называется гамма-коррекцией. Сама функция преобразования (transfer characteristics) определяется различными стандартами по-разному.

В теории гамма-коррекция должна производиться после конвертации RGB → YCbCr при записи данных, а обратное преобразование — перед конвертацией YCbCr → RGB при воспроизведении. То есть RGB → YCbCr → Y′CbCr → … → Y′CbCr → YCbCr → RGB. На практике же применяется цепочка RGB → R′G′B′ → Y′CbCr → … → Y′CbCr → R′G′B′ → RGB. Эта инженерная уловка использовалась для того, чтобы избежать двойного преобразования в ЭЛТ-мониторах. Яркость пикселя на таком мониторе нелинейно зависит от подаваемого напряжения, причём эта зависимость очень похожа на функцию обратной гамма-коррекции. Компонент Y′ (luma), полученный из R′G′B′, не соответствует теоретической яркости Y (luminance), получаемой из RGB. Это приводит к определённым артефактам, проявляющимся при использовании chroma subsampling (например, тёмная полоска на границе зелёный — маджента).

Gamma FAQ, Charles Poynton
Gamma FQA, Charles Poynton
The rehabilitation of gamma, Charles Poynton
Weber’s law

Chroma subsampling

Как уже упоминалось, считается, что человек сильнее воспринимает изменения яркости, чем изменения цветности. Так как YCbCr кодирует яркость (Y) и цветность (CbCr) отдельно, то эта особенность человеческого восприятия позволяет сохранять компоненты цветности с меньшим разрешением, чем компонент яркости. Называется это chroma subsampling.

Расмотрим 2 строки по 4 пикселя в каждой. В обычном случае мы имеем по 4 значения Y для каждой строки, и по 4 значения Cb и Cr для каждой из двух строк. Это описывается соотношением 4:4:4.

В общем виде записывается как J:a:b, где J — ширина рассматриваемой строки (всегда равна количеству Y-сэмплов в каждой из строк), a — количество Cb и Cr сэмплов в первой строке, b — количество Cb и Cr сэмплов во второй строке.

Например, «4:2:0»: 4(сэмпла яркости на каждую строку):2(сэмпла цветности на первую строку):0(сэмплов цветности на вторую строку — используется тот же цвет, что и в первой строке). Таким образом, на блок из четырёх пикселей приходится только один сэмпл цветности. Это наиболее используемый и поддерживаемый тип сабсэмплинга.

Несмотря на то, что визуально chroma subsampling почти не заметен, в некоторых случаях при преобразовании обратно в RGB могут возникать видимые артефакты. Проявляются они либо на видео низкого разрешения с текстом (в этом случае перед кодированием стоит сделать апскейл), либо при переходах между некоторыми цветами (чёрный-красный, зелёный-маджента), либо на специальных тестовых изображениях.

Chroma subsampling notation, Charles Poynton
Chrominance Subsampling in Digital Images, Douglas A. Kerr
Towards Better Chroma Subsampling, Glenn Chan
Color subsampling, Glenn Chan

Уровни

Для передачи цифрового сигнала чаще всего используется 8 бит на сэмпл. То есть Y, Cb и Cr могут принимать значения 0..255. Однако, из-за аналоговой природы большинства телевизионных стандартов, для видео используется не весь диапазон значений.

Согласно стандартам (BT.601, BT.709) чёрному цвету должно соответствовать Y = 16, белому Y = 235. Для Cb и Cr базовыми являются значения 16 и 240. Таким образом, яркость имеет 220 уровней (quantization levels), цветность — 225. При этом сигнал может содержать и значения 1..15 — footroom, и 236..254 (241..254) — headroom. Значения 0 и 255 — служебные.

Соответственно, нормализованные значения R, G, B, полученные из такого сигнала, могут выходить за пределы отрезка [0; 1], образуя так называемые области BTB (Blacker Than Black — чернее чёрного) и WTW (Whiter Than White — белее белого). В некоторых случаях это происходит из-за того, что при мастеринге видео уровень белого был намеренно выбран ниже максимального значения исходного сигнала (или/и уровень чёрного выше минимального).

Если для передачи сигнала используется больше 8-ми бит, то дополнительные биты являются младшими. Например, для 10-ти битного сигнала базовыми значениями Y (уровнями чёрного и белого) будут $16\cdot 2^{10-8}=64$ и $235\cdot 2^{10-8}=940$ , разрешёнными — 4..1019. Нулевой уровень цветности будет приходиться на $128\cdot 2^{10-8}=512$ .

Legal, valid, and sensible colors Poynton’s Vector
Poynton’s forum post

Full range

Некоторые, изначально цифровые, стандарты (JPEG, M-JPEG, Fraps) используют полный диапазон значений. То есть чёрному соответствует 0, белому — 255 (точнее, $2^{BitDepth}-1$ ). Нулевому уровню цветности — 128 ( $2^{BitDepth-1}$ ). В H.264 для такого сигнала предусмотрен флаг Full range.

Воспроизведение

Для корректного воспроизведения видео должны быть выполнены следующие шаги:

Выбор базовых уровней входящего сигнала.
Chroma upsampling.
Конвертация YCbCr → RGB с использованием правильных коэффициентов.
Дополнительная коррекция изображения для конкретного устройства вывода.

EBU Tech 3320 «User requirements for Video Monitors in Television Production» Annex A
Тема на iXBT

Выбор уровней

В некоторых случаях входящий сигнал может содержать полезную информацию в областях BTB/WTW. Студийные мониторы должны корректно отображать такие цвета. Однако к домашнему оборудованию и условиям просмотра предъявляются гораздо более мягкие требования, и более комфортным может оказаться отображение только уровней 16..235. Иначе говоря, нужно определиться, будете ли вы масштабировать сигнал 16..235 в 0..255 или будете сохранять области BTB/WTW (в которых ничего полезного может и не быть), жертвуя контрастом.

При выполнении преобразования YCbCr → RGB в ffdshow есть возможность как автоматического выбора между Full range и TV-диапазоном (учитывая и флаг H.264), так и ручной установки уровней Y (количество уровней CbCr изменяется пропорционально).

Также в ffdshow имеется фильтр Levels, позволяющий динамически изменять диапазон при появлении BTB/WTW. Но, так как этот фильтр работает с 8-битными значениями, его использование может привести к появлению banding’а.

Полностью сохранить сигнал в областях BTB/WTW можно также, установив входные уровни YCbCr равными 16..235(240) и уровни вывода RGB равными 16..235. При этом стоит убедиться, что уровни 1..15 и 236..254 нигде не обрезаются.

То, что уровни могут быть изменены сразу в нескольких местах (рендерер, декодер, промежуточные фильтры, настройки видеокарты, шейдеры), может привести к нежелательным последствиям, например, к двойному преобразованию 16..235 → 0..255.

Ресайз

Ресайз (resize — изменение размеров) при просмотре видео выполняется по нескольким причинам:

chroma upsampling;
соотношение сторон пикселя (Sample Aspect Ratio) отличное от 1:1;
несоответствие разрешения видео разрешению монитора.

То есть, даже если вы смотрите 720p на соответствующем мониторе, вам всё равно необходим качественный метод ресайза для компенсации chroma subsampling. Ресайз, как правило, выполняется рендерером. Наиболее продвинутым в этом плане является madVR. VMR9, EVR Custom и Haali renderer также позволяют в некоторой степени изменять метод ресайза.

YCbCr → RGB

Коэффициенты преобразования YCbCr → RGB могут отличаться для контента различной природы. Так, для SD-видео обычно используются коэффициенты описанные в стандарте BT.601, а для HD — BT.709. При использовании неверных коэффициентов происходит слабо заметное искажение цветов. Например, лица людей становятся розовее или желтее.

Многие форматы (H.264, MPEG-2, VC-1, Theora, JPEG SPIFF) поддерживают указание matrix_coefficients в виде метаинформации. Однако наиболее распространён метод выбора коэффициентов на основании разрешения видео. Например, рендереры VMR7 и VMR9 используют BT.601, если высота кадра < 720, а BT.709, если высота ≥ 720. Таким образом, видео 720p, кропнутое по высоте, будет воспроизводиться с неправильными коэффициентами. ffdshow использует более разумные критерии:

если установлен флаг в потоке H.264, то используются соответствующие коэффициенты;
для Fraps используется BT.709;
для JPEG и M-JPEG — BT.601;
если высота ≥ 600 или ширина > 1024 — BT.709;
если высота < 600 и ширина ≤ 1024 — BT.601.

Также компенсировать неверный выбор коэффициентов можно используя шейдеры в MPC-HC.

Преобразование в RGB подразумевает предварительный chroma upsampling. Качественно его могут выполнять, например, ffdshow и madVR. Первый делает это программно, второй — нещадно используя ресурсы видеокарты.

Говорят, что информация о праймари, коэффициентах и гамме может содержаться не только в метаданных, но и в самом потоке: «Some digital video signals can carry a video index (see SMPTE RP 186—1995) which explicitly labels the primaries, transferFunction, and matrix of the signal.»

Chroma upsampling comparison
Colorimetry, avisynth.org
Color coefficients and Colormatrix usage summary, summary of Doom9’s discussions.

Дополнительный рендеринг

В некоторых случаях может понадобиться дополнительная коррекция изображения. Например, изменение цветового пространства и гаммы в соответствии с параметрами монитора. Это можно сделать с помощью yCMS (madVR, AviSynth) или ICC-профиля.

Необходимо понимать, что на восприятие человеком изображения влияет множество вторичных факторов, среди которых:

Эффект Стивенса (Stevens effect) — воспринимаемая контрастность увеличивается с увеличением яркости.
Эффект Бартлесона — Бренемана (Bartleson-Breneman effect) — более тёмная окружающая обстановка уменьшает воспринимаемую контрастность.
Эффект Ханта (Hunt effect) — насыщенность увеличивается с увеличением яркости. Например, цветы при дневном свете (около 30000 cd/m²) выглядят красочнее, чем при сумеречном (около 300 cd/m²). Если изображение снято днём, но отображается на мониторе яркостью 300 cd/m² без модификации данных RGB, то будет казаться, что оно было снято в сумерках.

Традиционно для компенсации этих эффектов при воспроизведении используется несколько большее значение гаммы, чем было использовано при съёмке камерой. Так, студийные мониторы, предназначенные для просмотра в тёмном окружении, используют γ ≈ 2.4, в то время как при съёмке используется кривая с показателем 1/γ ≈ 1/2. Для мониторов, используемых в светлых помещениях, подойдёт γ ≈ 2.2 (sRGB).

Perceptual uniformity, picture rendering, image state, and BT.709, Charles Poynton
Color II, MIT lecture presentation
Color Context

Кодирование

Ресайз

Для правильного ресайза должны использоваться линейные, а не гамма-корректированные значения компонентов. При ресайзе в большее разрешение это не существенно, однако при уменьшении разрешения неверный ресайз может приводить к заметным проблемам.

Встроенные функции Avisynth этого не учитывают, а кроме того, имеют ряд багов chroma shift, часть из которых не исправлена и в версии 2.6a3.

Ресайз над линейными компонентами можно производить при помощи Dither Tools (пример) или ResampleHQ. Однако в последнем присутствуют некоторые баги.

Avisynth known issues, avisynth.org
Weird chroma placement, Doom9 thread
Gamma error in picture scaling, Eric Brasseur

Коррекция коэффициентов

Если при создании рипа производится ресайз из HD в SD, то следует скорректировать значения YCbCr так, чтобы при воспроизведении цвета не искажались из-за ошибочного выбора коэффициентов (для SD традиционно используются BT.601, для HD — BT.709). В Avisynth это можно сделать выполняя ресайз при помощи Dither Tools или ResampleHQ, а также плагинами ColorMatrix и t3dlut. Сама по себе коррекция коэффициентов не требует преобразования в RGB.

При кодировании следует указывать используемые коэффициенты в метаданных (параметр --colormatrix для x264). Эта информация может использоваться либо когда конвертация в RGB производится декодером, либо отдельными связками декодер + рендерер (LAV Video + madVR). В большинстве же случаев флаг colormatrix игнорируется и коэффициенты выбираются на основе разрешения видео. Тем не менее, выставленный флаг позволяет понять, корректировались ли коэффициенты.

Стандарты

Standard	Primaries (x; y) R, G, B, White	Matrix coefficients K_R; K_B	Transfer characteristics
IEC 61966-2-4 (xvYCC)	(0.640; 0.330), (0.300; 0.600), (0.150; 0.060), D65 (0.3127; 0.3290)	xvYCC₆₀₁: 0.299; 0.114	$V={\begin{cases}1.099\cdot L_{c}^{0.45}-0.099,&{\mbox{for }}L_{c}\geq 0.018\\4.500\cdot L_{c},&{\mbox{for }}0.018>L_{c}>-0.018\\-1.099\cdot (-L_{c})^{0.45}+0.099,&{\mbox{for }}-0.018\geq L_{c}\end{cases}}$
IEC 61966-2-4 (xvYCC)		xvYCC₇₀₉: 0.2126; 0.0722
SMPTE RP 177 Annex B		0.2126; 0.0722	?
BT.1361 extended gamut			$V={\begin{cases}1.099\cdot L_{c}^{0.45}-0.099,&{\mbox{for }}1.33>L_{c}\geq 0.018\\4.500\cdot L_{c},&{\mbox{for }}0.018>L_{c}\geq -0.0045\\-(1.099\cdot (-4\cdot L_{c})^{0.45}-0.099)/4,&{\mbox{for }}-0.0045>L_{c}\geq -0.25\end{cases}}$
BT.1361 conventional gamut			$V={\begin{cases}1.099\cdot L_{c}^{0.45}-0.099,&{\mbox{for }}1\geq L_{c}\geq 0.018\\4.500\cdot L_{c},&{\mbox{for }}0.018>L_{c}\geq 0\end{cases}}$
BT.709-5 Part 2
SMPTE 274M
SMPTE 295M
SMPTE 296M
EBU Tech 3299
FCC 73.682	(0.67; 0.33), (0.21; 0.71), (0.14; 0.08), C (0.310; 0.316)	0.30; 0.11	γ = 2.2
NTSC 1953		0.299; 0.114
BT.470-6 System M/NTSC
BT.470-6 System M/PAL			γ = 2.8
BT.470-6 System B, G, I, …	(0.64; 0.33), (0.29; 0.60), (0.15; 0.06), D65 (0.3127; 0.3290)		γ = 2.8
BT.1700 625 PAL/SECAM			γ = 2.2
BT.601-6 625			$V={\begin{cases}1.099\cdot L_{c}^{0.45}-0.099,&{\mbox{for }}1\geq L_{c}\geq 0.018\\4.500\cdot L_{c},&{\mbox{for }}0.018>L_{c}\geq 0\end{cases}}$
BT.1358 625
BT.601-6 525	(0.630; 0.340), (0.310; 0.595), (0.155; 0.070), D65 (0.3127; 0.3290)
BT.1358 525
SMPTE 170M BT.1700 NTSC
SMPTE 293M
SMPTE 240M		0.212; 0.087	$V={\begin{cases}1.1115\cdot L_{c}^{0.45}-0.1115,&{\mbox{for }}1\geq L_{c}\geq 0.0228\\4.0\cdot L_{c},&{\mbox{for }}0.0228>L_{c}\geq 0\end{cases}}$
SMPTE 260M		0.212; 0.087
SMPTE RP 145 «SMPTE C»		?
BT.1700 525 PAL	(0.630; 0.340), (0.310; 0.595), (0.155; 0.070), C (0.3101; 0.3162)	0.299; 0.114	γ = 2.2
EBU Tech 3213	(0.64; 0.33), (0.29; 0.60), (0.15; 0.06), D65 (0.313; 0.329)	-
H.264 Annex E: Generic film	Wratten 25 (0.681; 0.319), Wratten 58 (0.243; 0.692), Wratten 47 (0.145; 0.049), C (0.310; 0.316)	-
H.264 Annex E: Linear transfer characteristics	-		$V=L_{c},\quad {\mbox{for }}1>L_{c}\geq 0$
H.264 Annex E: Logarithmic transfer characteristic (100:1 range)			$V={\begin{cases}1.0+{\lg L_{c} \over 2},&{\mbox{for }}1\geq L_{c}\geq 0.001\\0.0,&{\mbox{for }}0.001>L_{c}\geq 0\end{cases}}$
H.264 Annex E: Logarithmic transfer characteristic (100*Sqrt(10):1 range)			$V={\begin{cases}1.0+{\lg L_{c} \over 2.5},&{\mbox{for }}1\geq L_{c}\geq {\sqrt {1}}0/1000\\0.0,&{\mbox{for }}{\sqrt {1}}0/1000>L_{c}\geq 0\end{cases}}$

Примечания

BT.709-1 указывал коэффициенты K_R = 0.2125, K_B = 0.0721, но в BT.709-2 они были изменены (Y′CbCr Video in QuickTime, Wilbert’s post).
BT.709 содержит также Part 1 «HDTV systems related to conventional television», которая определяет другие matrix coefficients для 1250/50/2:1 (K_R = 0.299; K_B = 0.114). При этом стандарт рекомендует использовать Part 2 при создании нового контента.
BT.470 — устаревший стандарт аналогового телевидения, в последней редакции которого (BT.470-7) просто рекомендуется использовать BT.1700. Однако его по-прежнему упоминают в том или ином виде.
BT.1700 ссылается на SMPTE 170M (2004) для описания NTSC.
SMPTE 170M упоминает, что, в то время как коэффициенты NTSC 1953 публиковались в виде K_R = 0.30, K_B = 0.11, при разработке спецификации использовались именно K_R = 0.299; K_B = 0.114.

Источники

Первичные:

Сами стандарты. Не проверены SMPTE 240M, SMPTE 260M, SMPTE 293M, SMPTE 295M, SMPTE RP 145, SMPTE RP 177, NTSC 1953, IEC 61966-2-4.

Вторичные:

A Review of RGB Color Spaces
H.264 Annex E
Understanding Analog Video Signals
ICC.1:2004-10, Table 24
VC-1 Draft 2005-08-23, Table 10-12
Uncompressed Y´CbCr Video in QuickTime Files
MSDN: Extended Color Information (VideoPrimaries, VideoTransferMatrix, VideoTransferFunction)

Литература

«Digital Video and HDTV: Algorithms and Interfaces», Charles Poynton
«The Reproduction of Colour» (6th Edition), R.W.G. Hunt (перевод Алексей Шадрин)
«Video Demystified. A Handbook for the Digital Engineer» (5th Edition), Jack K.

Ссылки

Charles Poynton
The Pumpkin a library of selected writings of Douglas A. Kerr