Wat is Deep Learning AF: hoe werkt Canons AI-aangedreven autofocus?

Canon heeft veel lawaai gemaakt over zijn nieuwe Deep Learning AF-systeem, dat de kern vormt van de nieuwste professionele camera van de fabrikant. Het klinkt ongelooflijk slim, maar er zijn veel vragen - wat is Deep Learning? Wie geeft les? Leert het systeem terwijl u fotografeert? Is het echt kunstmatige intelligentie in een camera? Maakt het de autofocus eigenlijk beter?

Als je onze Canon EOS-1D X Mark III review hebt gelezen, weet je dat het antwoord op de laatste vraag een volmondig ja is. Wat betreft de antwoorden op de andere vragen over Deep Learning AF, pak een drankje en een hapje en lees verder …

De autofocusmechanica van de Canon EOS-1D X Mark III is ongelooflijk slim en ondersteunt twee afzonderlijke AF-systemen. Ten eerste is er het optische systeem, dat 16 beelden per seconde door de zoeker schiet, met behulp van een 400.000-pixel meetsensor in combinatie met een speciale Digic 8-processor, voor 191-punts AF die gezichten kan volgen.

Dan is er het Live View-systeem, dat in staat is om 20 frames per seconde op te nemen, waarbij alle 20,1 miljoen pixels van de beeldsensor worden gebruikt in combinatie met de nieuwe Digic X-processor, voor 3.869 Dual Pixel CMOS-punten die volledige oogdetectie-AF kunnen uitvoeren.

Beide systemen worden aangedreven door Canons core EOS iTR AFX-technologie - de nieuwste versie van de Intelligent Tracking and Recognition Auto Focus, die debuteerde in de originele EOS-1D X (en vervolgens zijn weg vond naar de 7D Mark II- en 5D-familie). En begraven in zijn schakelingen is het Deep Learning-algoritme.

Deep Learning is NIET hetzelfde als AI

Allereerst is het belangrijk om duidelijk te maken dat Deep Learning niet moet worden verward met kunstmatige intelligentie (AI). Een AI-systeem is iets dat voortdurend in ontwikkeling is. Deep Learning, of machine learning, is een subset van AI.

In tegenstelling tot echte AI is Deep Learning een gesloten proces. Het is een pre-assemblage-algoritme waarmee de camera-architectuur zichzelf in wezen kan leren, veel sneller dan handmatig kan worden geprogrammeerd door menselijke ingenieurs. Zodra dit leren is voltooid, wordt het vergrendeld en in de camera geladen.

Vanaf dat moment is leren niet meer mogelijk; ondanks de naam - en Deep Learning is de naam van de technologie, niet een beschrijving van het proces - leert de camera niet constant en zal niet 'beter' worden naarmate je meer opnamen maakt (inderdaad, een echt AI-systeem zou zoveel van uw slechte gewoonten zoals het uw goede zou zijn!).

"Het is onderwezen", legt Mike Burnhill, manager technische ondersteuning voor Canon Europe, uit. "Je stopt het in een computer, het creëert het algoritme dat vervolgens in de camera wordt geladen. Het is dus anders dan AI - AI is continu leren; diep leren is eigenlijk, het leert zichzelf en geeft je een eindresultaat dat vervolgens wordt geladen. in de camera. "

Wat de vraag oproept: met zoveel bedrijven die schreeuwen over AI-gebaseerde functies, is een camera echt in staat om kunstmatige intelligentie te ondersteunen?

"De verwerkingskracht om echte AI te doen, is niet haalbaar in een camera", zegt Burnhill. "Als je dat wilt doen, zijn er telefoons - maar de gegevens staan ​​niet in je telefoon, het zijn in Silicon Valley. Daar is het AI-systeem. Het is gewoon, je telefoonverbinding maakt er verbinding mee - het is niet hier, het is er (in the cloud), omdat je een server nodig hebt. We zouden een camera kunnen maken, maar je zou de hele tijd een gigantische flightcase met je meesleuren. "

Hoe leert Deep Learning zichzelf?

Dus het Deep Learning-algoritme leert zichzelf - maar waar leert het eigenlijk van? Het antwoord is simpel gezegd 'van de beste'.

"Canon werkte samen met onze bureaus", vertelt Burnhill. "We kregen in feite toegang tot hun hele beelddatabase van sportfotografie, van alle grote bureaus, we werkten samen met onze ambassadeurs die sport fotograferen, en zij leverden hun foto's van verschillende onderwerpen, en het stelde ons in staat om dit AF-systeem te leren herkennen mensen in de sport. "

Sport is uiteraard de doelgerichte lesmethode, want de Canon EOS-1D X Mark III is in de eerste plaats een sportcamera. Het probleem is dat, of het nu een basketbalspeler is die wegkijkt van de camera, een skiër die een bril draagt ​​of een Formule 1-coureur die een helm draagt, bij sporters is hun gezicht vaak verborgen - wat betekent dat traditionele gezichtsherkenning of zelfs oogdetectie-AF dat niet doet t werken, en de camera zal in plaats daarvan vergrendelen op zaken als de nummers op het uniform van een speler.

Door het Deep Learning-algoritme toegang te geven tot een enorme bibliotheek met afbeeldingen, van alles van ondersteboven gymnasten tot hockeyspelers met pads en helmen, is het in staat om de menselijke vorm te leren en te differentiëren in een eindeloze verscheidenheid aan situaties - en uiteindelijk in staat om deze 'hoofddetectie' uit te voeren, zodat zelfs als het gezicht van de persoon niet zichtbaar is, het hoofd altijd het primaire aandachtspunt is.

"Diep leren is eigenlijk dat er afbeeldingen zijn, je maakt een reeks regels om te leren, en dan begint het en het creëert zijn eigen algoritme," vervolgt Burnhill. "Dus je stelt de parameters in van hoe de persoon eruit zou zien, je gaat, 'Hier is de persoon', dan analyseert het alle afbeeldingen van mensen en zegt: 'Dit is een persoon', 'Dat is een persoon'. doorloopt gedurende een bepaalde periode miljoenen afbeeldingen en maakt die database, en hij leert vanzelf. "

In feite creëert het algoritme eigenlijk twee databases: een voor het AF-systeem en de meting van de optische zoeker met behulp van Digic 8 en een voor het Live View AF-systeem dat Digic X gebruikt. Omdat het de Digic X is die alle berekeningen doet voor head tracking, zodra het AF-algoritme een persoon in het frame detecteert, wordt alles naar de nieuwe processor geduwd.

"Als je eenmaal een persoon binnen hebt, heb je eigenlijk een dubbele verwerking aan de gang", zegt Burnhill. "Er zijn hier twee databases, omdat de invoer van beide sensoren iets anders zal zijn, dus de herkenning zal enigszins verschillen, dus dit zijn subsets van hetzelfde algoritme. De kerngegevens voor beide zijn hetzelfde, het is alleen hoe het zal worden herkend en de juiste gegevens erop zullen worden toegepast. "

Als het geen nieuwe dingen kan leren … hoe zit het dan met AF bij dieren?

Natuurlijk is de Canon EOS-1D X Mark III niet alleen een sportcamera - het andere belangrijke publiek zijn natuurfotografen. Toch beschikt de camera niet over autofocus voor dieren, en we hebben vastgesteld dat Deep Learning eigenlijk geen nieuwe trucs kan leren als het eenmaal in de camera is gebakken. Dus is dat het? Zal de camera met al deze mooie nieuwe technologie niet eens op de gezinshond focussen?

Het is waar dat de camera op dit moment geen autofocus met dieren (of dierenogen) heeft. "In feite concentreren we ons in het begin op mensen om dat soort algoritme als eerste te laten werken", reageert Burnhill. "Daarom hebben we ons een beetje gefocust op sport, want dat is een vaste parameter en we kunnen het binnen een bepaalde tijd leren,"

Het antwoord ligt dus in firmware. Burnhill bevestigde dat er de mogelijkheid bestaat dat de camera meer Deep Learning ondergaat, voor zaken als vogels en dieren in het wild, en dat dit bijgewerkte algoritme via firmware-updates onder gebruikers wordt verspreid - hoewel er geen concrete plannen zijn om aan te kondigen.

"We zullen het de hele tijd ontwikkelen, dus op dit moment is het nog steeds onbeslist hoe en waar we heen gaan. Maar het ontwikkelingsteam gaat kijken naar andere dierenfotografie - we beseffen dat er een hele reeks velden is, maar uiteraard de grote focus van deze camera ligt op sport en vervolgens op dieren in het wild, en met Tokyo 2022-2023 was dit uiteraard de prioriteit. "

Het is een eerlijk punt; als Canon had gewacht tot Deep Learning alles had geleerd, zou het langer hebben geduurd voordat de camera was uitgebracht. En hoewel fabrikanten zoals Sony een aantal selectieve dieren-AF in hun camera's hebben, merkt Burnhill op dat Canon veel liever een complete dieren-AF-oplossing uitbrengt in plaats van een selectieve, stukje bij beetje. En dit is waar Deep Learning van onschatbare waarde zal worden.

"Het probleem zit hem in het wild, er zijn veel verschillende dieren - je hebt duidelijk roofdieren met de ogen aan de voorkant, en dan heb je de (ogen) van konijnen aan de zijkant, je hebt slangen, je hebt vogels … er is geen systeem dat herkent de gezichten van alle dieren. En dat is waar je in dit hele diepe leren begint, om het systeem te leren deze complexe dingen te herkennen. "

Dus hoewel je Sony misschien wel je hond of je kat kan volgen, maar geen salamander of flamingo, wil Canon een camera maken die alles of niets doet. "Als we het zouden doen, zouden we het voor een zo breed spectrum willen doen - we willen geen hondvriendelijke camera en een katvriendelijke camera maken, we willen een diervriendelijke camera maken dat werkt voor het brede scala aan dieren dat (professionals) zouden schieten. "

Canon EOS-1D X Mark III recensie
Hoe heeft Canon de snelste DSLR ooit gemaakt? Door de spiegelkast opnieuw te ontwerpen
102 updates over de Canon EOS-1D X Mark III

Interessante artikelen...