identifiant-unique-de-la-personne-un-nouveau-dispositif-pour-plus-de-securite-_5aaaf89b4e4fa_l250_h250Depuis huit mois, la police chinoise de 16 provinces est équipée de lunettes à reconnaissance faciale. Un premier bond en avant vers une surveillance absolue du pays. Cette fois, Big Brother est vraiment là.

La reconnaissance faciale a un paradis : la Chine. Les visages et les données biométriques de ses quelque 1,4 milliard d’habitants constitueront bientôt la plus importante base identitaire au monde. Si la Chine est pionnière en ce domaine, c’est parce que le régime en a fait une priorité politique.

Lire aussi:Le supermarché du 3e type

Dans ce pays qui dispose déjà de 200 millions de caméras de vidéosurveillance et a prévu d’en installer 400 millions de plus d’ici à 2020, ce réseau de caméras intelligentes déployé dans 16 provinces et municipalités devrait être installé dans tous les lieux publics d’importance, permettant d’identifier chaque Chinois de plus de 16 ans en moins d’une seconde, « sans souci d’angle ou de luminosité ». Le système aurait déjà permis l’arrestation de 2 000 criminels en deux ans.

Lire aussi: JO de Tokyo-2020 : un dispositif de reconnaissance faciale inédit

Et ce Big Brother sert pour tout. Ainsi, dans les toilettes publiques, la reconnaissance faciale répond au souci d’économie du papier. Si vous avez reçu votre quota de feuilles et que vous y revenez, la machine vous reconnaîtra et vous patienterez neuf minutes supplémentaires ! A l’université, à chaque début de cours, les étudiants doivent présenter leur visage à une caméra, rendant la fraude impossible : alors que l’on peut signer une feuille de présence pour un camarade, on ne peut lui offrir ses traits.

Les visages et les données biométriques de ses quelque 1,4 milliard d’habitants constitueront bientôt la plus importante base identitaire au monde

Les visages et les données biométriques de ses quelque 1,4 milliard d’habitants constitueront bientôt la plus importante base identitaire au monde© Reuters

Autre domaine : à Shanghai ou à Shenzhen, des caméras intelligentes veillent sur les passages piétons. Tout le monde pourra découvrir sur des écrans le visage, le nom et l’adresse du contrevenant qui aura traversé au rouge, le temps que l’amende soit acquittée. Dans un pays où tout citoyen, dès son 16e anniversaire, est tenu de fournir une photo d’identité aux forces de l’ordre, la reconnaissance faciale fait désormais partie du paysage policier.

Les yeux de Big Brother

SC_SC_10082eb1_cdae_4612

Les GLXSS, fabriquées par LLVision, une entreprise spécialisée en intelligence artificielle, sont des lunettes de soleil dotées d’une mini-caméra et d’un boîtier qui complète la panoplie. L’ensemble est relié à une base de données : le fichier des délinquants. Le policier n’est plus dépendant du passage des suspects devant sa caméra, ni condamné à un angle unique et à une seule face. Si le dispositif a été mis en place juste avant le Nouvel An, c’est que cette fête majeure dans la vie chinoise entraîne d’importants mouvements de population, et leur lot d’indésirables.

A Zengzhou, les GLXSS auront permis d’arrêter… 33 personnes : 26 voyageurs pour fausse identité et 7 criminels recherchés pour des faits graves. Un bilan qui peut sembler mince au regard des nombres et des ambitions. Pourtant, si l’on en croit le site de LLVision, d’autres forces de sécurité se sont, depuis, équipées de ces lunettes destinées aux publics mouvants des gares et des aéroports. A Changyuan, la police de la route les utilise aux barrages autoroutiers, tant pour reconnaître les conducteurs que leurs véhicules. De même qu’à Urumqi, la capitale ouïgoure, où les mouvements indépendantistes exaspèrent le pouvoir central de Pékin.

Repéré au milieu de 60 000 personnes

SC_SC_arrestation_chine_

En criminel (économique) averti mais mélomane, M. Ao (à gauche ci-dessus) pensait ne courir aucun risque en allant écouter dans le stade de Munchang, au milieu de 60 000 personnes, la star de la pop cantonaise, Jacky Cheung. Quelle ne fut pas sa surprise de voir la police surgir pour l’arrêter : il avait été reconnu par une caméra à l’entrée du stade. La propagande chinoise a relayé abondamment cet ébahissement, avec ce message : « Nos caméras de détection sont si puissantes et intelligentes qu’elles sont capables d’identifier un criminel au milieu de milliers de visages, mobiles et mal éclairés. »

La machine intelligente ne comprend pas pour autant réellement ce qu’est un visage. Pas plus qu’un chien une voiture

Ancien élève de l’ENS de Cachan, Jean Ponce est membre du laboratoire d’informatique de l’ENS Ulm, qu’il a dirigé de 2011 à 2017. Actuellement détaché de l’ENS, il est directeur de recherches à l’INRIA et mène à New York la collaboration entre cet organisme et New York University. Ses domaines de recherche sont la vision artificielle et le « machine learning. »

Vous êtes l’un des grands spécialistes mondiaux de la reconnaissance visuelle. De quoi s’agit-il exactement ?
L’œil de la machine arrivera-t-il un jour à égaler, voir à dépasser les performances de l’être humain ? Ce dernier est capable d’interpréter l’image qu’il perçoit. C’est-à-dire d’identifier les formes qui s’offrent à son regard : visage ou chaise, être humain ou chien. Pour y parvenir, il peut sélectionner un grand nombre d’informations et en discriminer autant. Par exemple, il va reconnaître que deux images, l’une prise de face, l’autre de profil, représentent un même visage, alors que pour un ordinateur, analysées pixel par pixel, elles sont très différentes. Autre exemple : photographié en pleine lumière, ce visage va présenter deux parties éclairées différemment, dont l’une est plus sombre que l’autre. La partie ombrée évolue en outre avec la position du soleil. C’est pourquoi beaucoup de recherches en reconnaissance visuelle s’attaquent à cette variabilité propre à l’image.
Il faut préciser cependant que, depuis les années 1990, la reconnaissance visuelle a énormément progressé. Nous ne sommes plus limités à des formes géométriques très simples (blocs, prismes, etc.) photographiées devant un fond uniforme, et traitons des images plus difficiles, montrant des gens, des animaux, ou des objets de tous les jours dans leur environnement naturel.

En raison de ses usages politiques et sociaux, la reconnaissance faciale est devenue l’image la plus redoutée de l’IA. Que peut-on en dire d’un point de vue scientifique 
En matière de reconnaissance faciale, les modifications d’un visage en fonction de ses expressions et du point de vue sont une vraie difficulté. Ce visage est en réalité plutôt rigide. Seul le bas est sujet à des transformations temporaires. Les performances des ordinateurs sont également liées à la nature des images : des individus isolés saisis dans une pose figée et sur un fond neutre sont plus faciles à identifier.
Nous sommes tous les utilisateurs d’un autre type de reconnaissance visuelle : celui qui est à l’œuvre dans nos appareils photos quand la machine détecte les visages des personnes présentes, qu’elle encadre d’un rectangle afin d’en améliorer la mise au point.
Il faut comprendre un point capital lorsque l’on tente une comparaison entre la reconnaissance visuelle humaine et celle d’un ordinateur : même lorsqu’elle capable d’identifier un visage ou de distinguer ce visage des autres parties du corps, la machine intelligente ne comprend pas pour autant réellement ce qu’est un visage. Pas plus qu’un chien qu’une voiture.

Comment apprend-on à « voir » à un ordinateur ?
Je me concentrerai ici sur la différence entre apprentissage supervisé et apprentissage non supervisé. Commençons par l’apprentissage supervisé. Imaginons que l’on souhaite développer un algorithme permettant d’identifier les castors présents sur une image. On devra au préalable nourrir l’ordinateur des images de milliers, voire de dizaines de milliers de castors différents, ou du même castor dans des postures ou des environnements différents. Et on aura pris soin d’étiqueter chacune de ces photos, c’est-à-dire d’en rédiger manuellement, l’une après l’autre, la description du contenu qui nous intéresse. Ce travail manuel est lent, fastidieux et coûteux. Car nous n’avons pas la chance, comme c’est le cas pour Facebook, que des utilisateurs «taguent » largement leurs images.

Heureusement, lorsque l’on analyse des vidéos, les métadonnées fournies par les scripts et les sous-titres permettent de réduire ce travail. On parle alors d’apprentissage « faiblement » supervisé. Une autre solution, encore plus ambitieuse, est celle de l’apprentissage « non supervisé ». Plus question de descriptions, je nourris toujours à la machine avec sa part d’images, mais je n’interviens plus. J’attends que l’ordinateur repère, seul, ce qui revient le plus souvent dans les informations fournies. Comme Babe, le gentil petit cochon du film de George Miller.

https://www.parismatch.com/