ComputereInformationsteknologi

Moderne computer vision. Opgaver og computer vision teknologi. Programmering Computer Vision i Python

Hvordan at undervise en computer til at forstå, hvad der er afbildet i billedet eller billederne? Dette synes simpelt, men for en computer er dette blot en matrix bestående af nuller og ettaller, hvorfra du ønsker at udtrække vigtige oplysninger.

Hvad er computer vision? Det er evnen til at "se" din computer

Vision - er en vigtig kilde til information for den person, der bruger det, vi opnår, ifølge forskellige skøn, fra 70 til 90% af alle oplysninger. Og, selvfølgelig, hvis vi ønsker at skabe en smart bil, er vi nødt til at gennemføre de samme færdigheder og computer.

Problemet med computer vision kan angives ganske tydeligt. Hvad er "se"? Det er underforstået, at hvor der er lige ved at se. Det konkluderede forskellene i computer vision og menneskelige syn. Vision for os - det er en kilde til viden om verden, samt en kilde til metrisk information - det vil sige, evnen til at forstå de afstande og størrelser.

Semantisk kerneaftryket

Ser man på billedet, kan vi beskrive det med en række egenskaber, så at sige, at udtrække semantisk information.

For eksempel ser på dette billede, kan vi sige, at det er udendørs. Hvad er byens trafik. At der er biler. Vi kan gætte på, at dette er Sydøstasien af konfigurationen af bygningen og hieroglyffer. Portrættet af Mao Zedong forstå, at dette er Beijing, og hvis nogen har set live video eller selv havde været der, ville gætte på, at dette er den berømte Himmelske Freds Plads.

Hvad vi kan sige mere om det billede, ser det? Vi kan identificere objekter i billedet, for at sige, at der er mennesker her tættere - hegn. Her paraplyer, at bygningens plakater. Dette er eksempler på klasser er meget vigtige objekter, der er involveret i jagten for øjeblikket.

Stadig vi kan lære nogle af de funktioner eller egenskaber af objekter. For eksempel, her kan vi fastslå, at dette ikke er et portræt af en almindelig kinesisk, nemlig Mao Zedong.

Ifølge køretøjet kan bestemmes, at det er et bevægeligt objekt, og det er svært, der ikke deformeres under bevægelsen. Om flag kan siges, at det objekter, er de også bevæger sig, men de er ikke svært, konstant deformeret. Og i scenen er der vinden, hvilket kan fastslås ved at udvikle flag, og kan endda bestemme retningen af vinden, for eksempel, er det blæser fra venstre mod højre.

Afstandene og længder i computer vision

Meget vigtigt er det metriske oplysninger om computer vision videnskab. Dette er alle former for afstande. For eksempel, for rover er særlig vigtig, fordi holdene er fra Jorden omkring 20 minutter og besvare så meget. I overensstemmelse hermed linket der og tilbage - 40 minutter. Og hvis vi lave en plan til bevægelse kommandoer af Jorden, er du nødt til at tage højde for dette.

Succesfuld integreret teknologien af computer vision i videospil. Ifølge videoen, kan du bygge tredimensionelle modeller af objekter, mennesker og fotos på brugeren kan gendanne de tredimensionelle modeller af byer. Og derefter gå på dem.

computer vision - en temmelig bredt område. Det hænger nøje sammen med forskellige andre videnskaber. En del af computer vision Det fanger billedet produktionsområde og undertiden tildeler datamatsyn, historisk.

Analyse, mønstergenkendelse - vejen til skabelsen af overlegne intelligens

Lad os undersøge disse begreber hver for sig.

Image Processing - dette er et område af algoritmer, hvor input og output - billede, og vi har ham gøre noget.

billedanalyse - er det område af computer vision, der fokuserer på at arbejde med det todimensionale billede og gøre konklusioner fra dette.

Mønstergenkendelse - en abstrakt matematisk disciplin, der genkender data i form af vektorer. Det vil sige, ved indgangen - vektor og vi har noget at gøre med det. Hvor vektoren er, er vi ikke så vigtigt at vide.

Computer vision - det oprindeligt var at genoprette strukturen i de to-dimensionelle billeder. I dag er dette område er blevet bredere, og det kan tolkes som accept af alle de fysiske objekter gør, baseret på det billede. Det vil sige, er det opgaven for kunstig intelligens.

Parallelt med computer vision i et helt andet felt, i geodæsi, har fotogrammetri udviklet sig - en måling af afstanden mellem objekter på todimensionale billeder.

Robotter kan "se"

Og endelig - det er maskine vision. Under maskinen vision betyder en vision af robotter. Det er den afgørelse, nogle produktionsproblemer. Vi kan sige, at computer vision - er en stor videnskab. Det kombinerer nogle af de andre videnskab del. Og når computeren vision får en bestemt applikation, det bliver til en maskine vision.

Computer vision region har en masse på praktiske anvendelser. Det er forbundet med automatisering af produktionen. På virksomhederne bliver mere effektive til at erstatte manuel arbejdskraft af maskinen. Maskinen bliver ikke træt, ikke sove, hun havde uregelmæssig arbejde tidsplan, hun er villig til at arbejde 365 dage om året. Så bruger maskinen arbejde, kan vi få en garanteret resultat på et bestemt tidspunkt, og det er ganske interessant. Alle opgaver har en klar brug for computer vision systemer. Og der er ikke noget bedre end at se resultatet med det samme på billedet kun i beregningen scenen.

På tærsklen til en verden af kunstig intelligens

Plus området - det er svært! En væsentlig del af hjernen er ansvarlig for syn, og det menes, at hvis du lære din computer for at "se", det vil sige, den fulde udnyttelse computer vision, det er en af målsætningerne for fuld kunstig intelligens. Hvis vi kan løse problemet på det menneskelige plan, sandsynligvis på samme tid, vil vi løse problemet med AI. Det er meget godt! Eller ikke meget godt, hvis man ser, "Terminator 2".

Hvorfor er vision - det er svært? Fordi billedet af det samme objekt kan variere meget afhængig af eksterne faktorer. Afhængigt af formålet med observationspunkter se anderledes ud.

For eksempel kan en og samme figur, taget fra forskellige vinkler. Og hvad er mest interessant i figuren, kan være det ene øje, to øjne og en halv. Og afhængigt af sammenhængen (hvis billede af mand i en skjorte med malede øjne), øjet kan være mere end to.

Computeren stadig ikke forstår, men det "ser"

En anden faktor, der gør det vanskeligt - det er belysningen. Den samme scene med forskellig belysning vil se anderledes ud. objekt størrelse kan variere. Endvidere objekter af enhver klasse. Hvordan kan du sige om en mand, at hans højde på 2 meter? Ingenting. Human vækst og kan være 2,3 m, og 80 cm. Som med andre typer genstande er imidlertid genstande af samme klasse.

Især levende objekter gennemgå en række forskellige stammer. Hår mennesker, sportsfolk, dyr. Kig på billeder af heste, der kører, fastlægge, hvad der sker med deres manke og hale er simpelthen umuligt. A overlappende objekter i et billede? Hvis du skubbe en computer billede, selv den mest kraftfulde maskine finder svært at give den rigtige beslutning.

Næste visning - det er en forklædning. Nogle genstande, dyr maskeret som miljøet, og ganske dygtigt. Og de samme pletter og farvestoffer. Ikke desto mindre ser vi dem, men ikke altid langvejs fra.

Et andet problem - bevægelsen. Objekter i bevægelse utænkelig undergår deformation.

Mange af genstandene er meget varierende. Her for eksempel, i de to billeder nedenfor objekter af "stolen".

Og på dette kan du sidde. Men for at undervise en maskine, sådan at de forskellige ting i form, farve, materiale, alt er et objekt "stol" - er meget vanskelig. Det er den udfordring. At integrere metoder til computer vision - er at lære en maskine til at forstå, analysere, spekulere.

Integration af computer vision i forskellige platforme

Massen af computer vision begyndte at trænge mere i 2001, da han skabte den første ansigt detektor. Vi gjorde det to forfattere: Viola, Jones. Det var den første hurtig og pålidelig nok algoritme, som demonstreret styrken af maskinens læringsmetoder.

Nu computer vision har nok nye praktiske anvendelser - anerkendelse af det menneskelige ansigt.

Men at genkende manden som i den film - på tilfældige vinkler, forskellige lysforhold - det er umuligt. Men for at løse problemet, eller en, der er forskellige mennesker med forskellig belysning eller i en anden positur, ens som i fotografiet i passet, er det muligt med en høj grad af tillid.

et pasfoto krav vid udstrækning skyldes de træk ved algoritmer de ansigtsgenkendelse.

For eksempel, hvis du har et biometrisk pas, i nogle moderne lufthavne, du kan bruge det automatiske paskontrol.

Uløst problem for computer vision - evnen til at genkende enhver tekst

Måske nogen brugte OCR-system. En af disse - en fin Reader, er meget populær i RuNet systemet. Der er mange former, hvor du udfylde data, de er perfekt scannet, oplysningerne er anerkendt af systemet meget godt. Men med en hvilken som helst tekst i billedet er situationen langt værre. Dette problem er stadig uløst.

Spil, der involverer computer vision, fange bevægelse

Separat stort område - er oprettelsen af tredimensionelle modeller og motion capture (som er ganske gennemført med succes i computerspil). Det første program, som bruger computer vision - et system af interaktion med computeren ved hjælp fagter. Da det blev oprettet det var en masse ting åbne.

Algoritmen er designet ganske enkelt, men for at konfigurere det tog at skabe en generator af syntetiske billeder af mennesker til at få en million billeder. Supercomputer med dem til at vælge de parametre i algoritmen, som han nu fungerer godt.

Det er en million billeder og uge tælleligt supercomputer tid muligt at skabe en algoritme, der bruger 12% af kapaciteten på en processor og tillader en person til at opfatte den position i realtid. Denne Microsoft Kinect-system (2010).

Søg efter billeder med indhold giver dig mulighed for at uploade billeder til systemet, og resultaterne af det vil give alle de billeder med det samme indhold og fremstillet af den samme vinkel.

Eksempler på computer vision: tre-dimensionelle og todimensionale kort bliver nu lavet med det. Maps til navigation biler opdateres løbende i henhold til DVR.

Der er en database med milliarder af geotaggede fotos. Ved at downloade billedet i databasen, kan du bestemme, hvor det blev gjort, og selv med nogle perspektiv. Selvfølgelig forudsat at stedet er populært nok at på et tidspunkt turisterne og foretaget en række fotos af området har været der.

robotter er overalt

Robotics på nuværende tidspunkt, overalt, uden at det på nogen måde. Nu er der biler, der har særlige kameraer, der genkender fodgængere og vejskilte til at overføre kommandoer til føreren (dette på en måde et computerprogram for at se, hjælper bilisten). Og der er et fuldautomatisk robot køretøjer, men de kan ikke stole udelukkende på video kamera system uden brug af en stor mængde yderligere oplysninger.

Moderne kamera - det er en analog camera obscura

Lad os tale om det digitale billede. Moderne digitale kameraer er arrangeret på princippet om camera obscura. Kun i stedet for hullet gennem hvilken lys kommer ind i strålen og projiceres på bagvæggen af kammeret af emnet kredsløb, har vi en særlig optisk system kaldet linsen. Dens formål er at indsamle et stort lysstråle og konvertere det, således at alle strålerne ledes gennem et virtuelt punkt for at opnå fremspringet og dannelse af et billede på film eller matrix.

Moderne digitale kameraer (matrix) er sammensat af individuelle elementer - pixels. Hver pixel kan måle energien af lys, som falder ind på den samlede pixel, og udstede et output nummer. Derfor, i et digitalt kamera, får vi i stedet for billedets lysstyrke sæt lys målinger, fanget i en enkelt pixel - computeren synsfelt. Derfor, når det billede, vi ser ikke er flydende linjer og klare konturer, og et gitter af farvede firkanter i forskellige farver - pixel.

Nedenfor kan du se den første digitale billede i verden.

Men i dette billede er ikke? Farve. Hvad er farven?

Psykologisk opfattelse af farve

Farve - det er det, vi ser. Farven på en og samme ting for mennesker og katte vil være anderledes. Da vi (mennesker) og dyr optisk system - visionen er anderledes. Derfor er farven - det er psykologisk kvaliteten af vores vision, der opstår, når observere objekter og lys. Og ikke en fysisk egenskab af objektet og lyset. Farve - er et resultat af samspillet mellem lette komponenter, og scenen af vores visuelle system.

Programmering Computer Vision i Python bruger biblioteker

Hvis du har besluttet at engagere sig seriøst i studiet af computer vision, bør straks forberede en række vanskeligheder, denne videnskab er ikke den nemmeste og skjuler en række faldgruber. Men "Programmering Computer Vision på Python" forfatterskabet af Jan Erik Solema - en bog, der skitserer alle de mest simple sprog. Her vil du stifte bekendtskab med de metoder til genkendelse af forskellige objekter i 3D, lære at arbejde med stereobilledet, virtual reality og mange andre anvendelser af computer vision. I bogen er nok eksempler i Python. Men forklaringerne er præsenteret, så at sige, generaliseret, for ikke at overbelaste for meget forskning og hårde data. Arbejde velegnet til studerende, amatører og entusiaster. Download denne bog og andre om datamatsyn (pdf-format) kan være i netværket.

I øjeblikket er der open source bibliotek af computer vision algoritmer og billedbehandling og numeriske algoritmer OpenCV. Det gennemføres på de fleste moderne programmeringssprog, er open source. Hvis vi taler om computer vision, Python bruger som et programmeringssprog, det har også støtte fra biblioteket, derudover er det konstant udvikling og har et stort fællesskab.

Virksomheden "Microsoft" tilbyder sine tjenester Api-stand til at træne det neurale netværk til at arbejde det med billeder af mennesker. Der er også mulighed for at anvende computer vision, Python bruger som programmeringssprog.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 da.delachieve.com. Theme powered by WordPress.