Tensorflow Lite Posenet sau estimarea Pose este sarcina de a utiliza un model ML pentru a estima poziția unei persoane dintr-o imagine sau un videoclip prin estimarea locațiilor spațiale ale articulațiilor cheie ale corpului (puncte cheie).
Estimarea poziției se referă la tehnici de viziune pe computer care detectează figuri umane în imagini și videoclipuri, astfel încât s-ar putea determina, de exemplu, unde apare cotul cuiva într-o imagine. Este important să fii conștient de faptul că estimarea poziției doar estimează unde sunt articulațiile cheie ale corpului și nu recunoaște cine este într-o imagine sau un videoclip.
Modelul PoseNet preia o imagine procesată a camerei ca informații de intrare și de ieșire despre punctele cheie. Punctele cheie detectate sunt indexate de un ID de piesă, cu un scor de încredere între 0,0 și 1,0. Scorul de încredere indică probabilitatea ca un punct cheie să existe în acea poziție.
Repere de performanță
Performanța variază în funcție de dispozitiv și pasul de ieșire (hărți de căldură și vectori offset). Modelul PoseNet este invariant de dimensiunea imaginii, ceea ce înseamnă că poate prezice poziții de poziționare în aceeași scară ca și imaginea originală, indiferent dacă imaginea este redusă. Aceasta înseamnă că configurați modelul pentru a avea o precizie mai mare în detrimentul performanței.
Pasul de ieșire determină cât de mult este redusă ieșirea în raport cu dimensiunea imaginii de intrare. Afectează dimensiunea straturilor și rezultatele modelului.
Cu cât pasul de ieșire este mai mare, cu atât rezoluția straturilor din rețea și a ieșirilor este mai mică și, în consecință, precizia acestora. În această implementare, pasul de ieșire poate avea valori de 8, 16 sau 32. Cu alte cuvinte, un pas de ieșire de 32 va avea ca rezultat cea mai rapidă performanță, dar cea mai mică precizie, în timp ce 8 va avea ca rezultat cea mai mare precizie, dar cea mai lentă performanță. Valoarea de pornire recomandată este 16.