Tecnologie TVCC


In questo articolo illustrerò come effettuare i Calcoli Ottici per le telecamere TVCC, ne seguiranno altri che affronteranno condizioni particolari da tenere in considerazione per ottimizzare la progettazione di un Sistema TVCC.

La figura seguente illustra come avviene, nell’occhio umano e, in modo analogo, in una fotocamera (o telecamera), la visione di un oggetto, e introduce gli elementi fondamentali che saranno utilizzati nei calcoli che seguiranno.

Ripresa EN

 

La distanza D viene spesso anche definita “Distanza Focale” o “Distanza dalla Scena” o “Distanza di messa a fuoco”.

La figura seguente mostra tutti i parametri ottico/geometrici coinvolti nei calcoli.

Geometria EN

 

Esiste una diretta proporzionalità tra le dimensioni del Sensore e la lunghezza focale rispetto alle dimensioni e la distanza della scena:

a/f = A/D   –   l/f = L/D

da cui si ricavano:

A = D * a/f   –   L = D * l/f

Un paio di esempi illustrativi, entrambi con distanza di messa a fuoco D = 16 m:

  • Con un sensore da 2/3”, le cui dimensioni (l x a) sono 8.8 x 6.6 mm, e una distanza focale f = 25 mm, le dimensioni della scena saranno:

A = 16 * 6.6/25 = 4.22 m   –   L = 16 * 8,8/25 = 5,63 m

  • Con un sensore da 1/3”, le cui dimensioni (l x a) sono 4.8 x 3.6 mm, e una distanza focale f = 35 mm, le dimensioni della scena saranno:

A = 16 * 3.6/35 = 1.65 m   –   L = 16 * 4,8/35 = 2,19 m

Tali valori corrispondono a:

Inquadrature 1 EN

 

Se ripetiamo lo stesso calcolo con entrambe le distanze focali di 25 mm si ottiene:

Inquadrature 2 EN

 

a evidente dimostrazione del fatto che le dimensioni delle scene sono direttamente proporzionali a quelle del sensore utilizzato, maggiori sono le dimensioni di quest’ultimo tanto maggiori quelle della scena ripresa.

Per la rappresentazione del campo visivo di ripresa si è soliti utilizzare anche la rappresentazione angolare, che può essere schematizzata come segue:

Angolare EN

 

Dal 1° Teorema sui Triangoli Rettangoli si ricavano le formule degli angoli Verticali e Orizzontali:

aV = 2 * arctg(A/(2 * D))   –   aO = 2 * arctg(L/(2 * D))

oppure, usando le precedenti proporzioni:

aV = 2 * arctg(a/(2 * f))   –   aO = 2 * arctg(l/(2 * f))

Utilizzando come esempio un sensore da 1/3”, con una distanza focale f = 6 mm e quella di messa a fuoco D = 10 m si ottiene un’ampiezza di scena di 8 x 6 m, con gli angoli aV = 33.4° e aO = 43.6°.

Angolare Doppio EN

 

A questo punto, ipotizzando che una telecamera con tali parametri sia installata a 3 m di altezza con una inclinazione verso il basso di 10°, è possibile determinare i campi visivi verticali (dimensioni in m):

Vista Laterale EN

 

Da notare la presenza della cosiddetta “Zona Cieca”, dove cioè non c’è copertura visiva; essa dipende dall’altezza di installazione, dall’angolo di inclinazione e dai parametri del sensore che determinano l’apertura angolare del campo di ripresa.

In modo analogo è possibile calcolare i campi visivi orizzontali (vista dall’alto).

Per completare questo primo articolo affronteremo ora le dimensioni in pixel delle scene e degli oggetti presenti, che rivestono estrema importanza nel campo dell’analisi delle scene poiché, di fatto, rappresentano la quantità di informazioni di cui si dispone.

In genere il parametro utilizzato è la densità di pixel, ossia i pixel per metro (px/m); per esempio nella tradizionale letteratura di settore si afferma che la densità minima richiesta affinché un algoritmo di riconoscimento dei volti lavori con parametri adeguati è 250 px/m (anche se tale valore tende sempre più a diminuire con il perfezionamento degli algoritmi basati sull’Intelligenza Artificiale). Vediamo quindi come calcolare tali valori.

Assumiamo di utilizzare un sensore Full‑HD (1.920 x 1.080 px) con gli stessi parametri dell’ultimo esempio; se all’ampiezza di scena di 8 m corrispondono 1.920 px, la relativa densità orizzontale sarà 1.920/8 = 240 px/m, mentre quella verticale 1.080/6 = 180 px/m.

Questa differenza di valori non deve suscitare stupore, basti pensare che le dimensioni del sensore sono (generalmente) in rapporto 4:3 mentre quelle in pixel 16:9; per tenere conto di questa differenza si utilizza un parametro definito Pixel Pitch che, in qualche modo, tiene conto della spaziatura orizzontale e verticale delle celle sensibili (i pixel) sulla superficie del sensore. Tale parametro rappresenta la distanza tra i centri di 2 pixel adiacenti, in pratica un mix tra la spaziatura e le dimensioni dei pixel, dove la spaziatura può essere differente per i lati orizzontali e verticali.

Un esempio chiarificatore, supponiamo di riprendere un oggetto che abbia 400 x 400 pixel reali, per esempio un cerchio di 200 px di raggio; se la ripresa viene effettuata con una telecamera posta a 16 m con una focale di 25 mm, tralasciando le formule, le dimensioni orizzontali e verticali saranno:

  • 50 e 55 per un sensore con risoluzione 704 x 576
  • 136 e 102 per un sensore con risoluzione 1.920 x 1.080

Strano, vero? In pratica noi riprendiamo un cerchio perfetto ma sul sensore otteniamo rispettivamente:

2Cerchi

 

Questo fenomeno deve essere tenuto nella giusta considerazione quando si eseguono calcoli geometrici nell’ambito dell’analisi delle scene.

Per finire calcoliamo le dimensioni in pixel di un oggetto (di dimensioni note) in una scena. I calcoli si eseguono banalmente applicando le proporzioni tra le dimensioni della scena e quelle dell’oggetto; per esempio nella precedente scena da 4,22 x 5,63 m con un sensore Full‑HD i pixel della persona sono:

pxV = 1.080 * 1,6/4,22 = 409   –   pxO = 1.920 * 0,4/5,63 = 136

mentre per l’altra scena da 2,30 x 3,07 m:

pxV = 1.080 * 1,6/2,30 = 752   –   pxO = 1.920 * 0,4/3,07 = 250

Come riprova del fenomeno precedente calcoliamo i pixel di un cerchio dal raggio di 1 m, questo risulterà 513 x 682 nel primo caso e 939 x 1.250 nel secondo.