మార్ ప్రైజ్ (ఉత్తమ పేపర్ అవార్డు) విజేత, ICCV 2011
దేవి పారిఖ్ మరియు క్రిస్టెన్ గ్రామన్
ఇంద్రధనస్సులో వైలెట్ రంగు ముగుస్తుంది మరియు నారింజ రంగు ప్రారంభమయ్యే రేఖను ఎవరు గీయగలరు? స్పష్టంగా మనం రంగుల వ్యత్యాసాన్ని చూస్తాము, కానీ ఒకదానిలో మొదటగా మరొకదానిలోకి సరిగ్గా ఎక్కడ ప్రవేశిస్తుంది? కాబట్టి తెలివి మరియు పిచ్చితనంతో.”
— హెర్మన్ మెల్విల్లే, బిల్లీ బడ్

నైరూప్య
మానవ-పేరుగల దృశ్య “గుణాలు” వివిధ గుర్తింపు పనులకు ప్రయోజనం చేకూరుస్తాయి. ఏదేమైనప్పటికీ, ఇప్పటికే ఉన్న పద్ధతులు ఈ లక్షణాలను వర్గీకరణ లేబుల్లకు పరిమితం చేస్తాయి (ఉదాహరణకు, ఒక వ్యక్తి ‘నవ్వుతూ’ ఉన్నాడా లేదా, ఒక దృశ్యం ‘డ్రై’ లేదా కాదా), తద్వారా మరింత సాధారణ అర్థ సంబంధాలను సంగ్రహించడంలో విఫలమవుతుంది. మేము మోడల్ సాపేక్ష లక్షణాలను ప్రతిపాదిస్తాము. విభిన్న లక్షణాల ప్రకారం ఆబ్జెక్ట్/దృశ్య వర్గాలు ఎలా సంబంధం కలిగి ఉంటాయో తెలిపే శిక్షణ డేటాను బట్టి, మేము ఒక్కో లక్షణానికి ర్యాంకింగ్ ఫంక్షన్ని నేర్చుకుంటాము. నేర్చుకున్న ర్యాంకింగ్ ఫంక్షన్లు నవల చిత్రాలలో ప్రతి ఆస్తి యొక్క సాపేక్ష బలాన్ని అంచనా వేస్తాయి. మేము అట్రిబ్యూట్ ర్యాంకింగ్ అవుట్పుట్ల ఉమ్మడి స్థలంపై ఒక ఉత్పాదక నమూనాను రూపొందిస్తాము మరియు జీరో-షాట్ లెర్నింగ్ యొక్క నవల రూపాన్ని ప్రతిపాదిస్తాము, దీనిలో సూపర్వైజర్ కనిపించని ఆబ్జెక్ట్ కేటగిరీని గుణాల ద్వారా గతంలో చూసిన వస్తువులతో సంబంధం కలిగి ఉంటాడు (ఉదాహరణకు, ‘ఎలుగుబంట్లు జిరాఫీల కంటే బొచ్చుగా ఉంటాయి. ‘). ప్రతిపాదిత సాపేక్ష లక్షణాలు కొత్త చిత్రాల కోసం రిచ్ టెక్స్ట్ వర్ణనలను ఎలా ప్రారంభిస్తాయో మేము ఇంకా చూపుతాము, ఆచరణలో మానవ వివరణ కోసం ఇవి మరింత ఖచ్చితమైనవి. మేము ముఖాలు మరియు సహజ దృశ్యాల డేటాసెట్లపై విధానాన్ని ప్రదర్శిస్తాము మరియు ఈ కొత్త పనుల కోసం సాంప్రదాయ బైనరీ అట్రిబ్యూట్ ప్రిడిక్షన్పై దాని స్పష్టమైన ప్రయోజనాలను చూపుతాము.
ప్రేరణ
బైనరీ లక్షణాలు పరిమితమైనవి మరియు అసహజమైనవి కావచ్చు. పై ఉదాహరణలలో, ఎగువ-ఎడమ మరియు ఎగువ-కుడివైపు ఉన్న చిత్రాన్ని వరుసగా సహజంగా మరియు మానవ నిర్మితంగా వర్గీకరించవచ్చు, అయితే మీరు ఎగువ-మధ్యలో ఉన్న చిత్రాన్ని ఏ విధంగా వర్ణిస్తారు? ఇతర చిత్రాలకు సంబంధించి దానిని వర్గీకరించడానికి ఏకైక అర్ధవంతమైన మార్గం: ఇది ఎడమవైపు ఉన్న చిత్రం కంటే తక్కువ సహజమైనది, కానీ కుడివైపు ఉన్న చిత్రం కంటే ఎక్కువగా ఉంటుంది.
ప్రతిపాదన
ఈ పనిలో, మేము మోడల్ సాపేక్ష లక్షణాలను ప్రతిపాదిస్తాము. ఒక లక్షణం ఉనికిని అంచనా వేయడానికి విరుద్ధంగా, సాపేక్ష లక్షణం ఇతర చిత్రాలకు సంబంధించి ఒక చిత్రంలో ఒక లక్షణం యొక్క బలాన్ని సూచిస్తుంది. మరింత సహజంగా ఉండటమే కాకుండా, సాపేక్ష గుణాలు సంపన్నమైన కమ్యూనికేషన్ మోడ్ను అందిస్తాయి, తద్వారా మరింత వివరణాత్మక మానవ పర్యవేక్షణ (మరియు అధిక గుర్తింపు ఖచ్చితత్వం), అలాగే నవల చిత్రాల యొక్క మరింత సమాచార వివరణలను రూపొందించే సామర్థ్యాన్ని అనుమతిస్తుంది.
మేము ప్రతి లక్షణానికి ర్యాంకింగ్ ఫంక్షన్ను నేర్చుకునే విధానాన్ని రూపొందిస్తాము, ఉదాహరణల జతలపై సాపేక్ష సారూప్యత పరిమితులను అందించడం (లేదా సాధారణంగా కొన్ని ఉదాహరణలపై పాక్షిక క్రమం). నేర్చుకున్న ర్యాంకింగ్ ఫంక్షన్ ఇమేజ్లలోని అట్రిబ్యూట్ ఉనికి యొక్క సాపేక్ష బలాన్ని సూచించే వాస్తవ-విలువ గల ర్యాంక్ను అంచనా వేయగలదు.
మేము జీరో-షాట్ లెర్నింగ్ యొక్క నవల రూపాలను మరియు సంబంధిత లక్షణ అంచనాలను ఉపయోగించుకునే చిత్ర వివరణను పరిచయం చేస్తాము.
అప్రోచ్
సాపేక్ష లక్షణాలను నేర్చుకోవడం: దిగువ చూపిన విధంగా తులనాత్మక పర్యవేక్షణ ఇచ్చిన ర్యాంక్ సూత్రీకరణ ద్వారా ప్రతి సంబంధిత లక్షణం నేర్చుకోవడం ద్వారా నేర్చుకుంటారు:

శిక్షణ పాయింట్లపై (1-6) కావలసిన క్రమాన్ని అమలు చేసే వైడ్-మార్జిన్ ర్యాంకింగ్ ఫంక్షన్ (కుడి) మరియు రెండు తరగతులను (+ మరియు -) మాత్రమే వేరు చేసే వైడ్-మార్జిన్ బైనరీ వర్గీకరణ (ఎడమ) మధ్య వ్యత్యాసం దిగువ చూపిన పాయింట్లపై కావలసిన క్రమాన్ని తప్పనిసరిగా సంరక్షించకూడదు:

నవల జీరో-షాట్ లెర్నింగ్: మేము ఈ క్రింది సెటప్ను అధ్యయనం చేస్తాము
N మొత్తం వర్గాలు: S చూసిన వర్గాలు (అనుబంధ చిత్రాలు అందుబాటులో ఉన్నాయి
) + U చూడని వర్గాలు (ఈ వర్గాలకు చిత్రాలు అందుబాటులో లేవు)
S చూసిన కేటగిరీలు గుణాల ద్వారా ఒకదానికొకటి సాపేక్షంగా వివరించబడ్డాయి (అన్ని గుణాలకు సంబంధించిన అన్ని జతల కేటగిరీలు అవసరం లేదు)
U కనిపించని కేటగిరీలు (ఉపసమితి) లక్షణాల పరంగా చూసిన వర్గాలకు సంబంధించి (ఉపసమితి) వివరించబడ్డాయి.
మేము మొదట చూసిన వర్గాలపై అందించిన పర్యవేక్షణను ఉపయోగించి సంబంధిత లక్షణాల సమితికి శిక్షణ ఇస్తాము. ఈ లక్షణాలను బాహ్య డేటా నుండి కూడా ముందే శిక్షణ పొందవచ్చు. మేము చూసిన వర్గాల నుండి చిత్రాలకు సంబంధిత లక్షణాల ప్రతిస్పందనలను ఉపయోగించి చూసిన ప్రతి వర్గానికి ఉత్పాదక నమూనాను (గాస్సియన్) రూపొందిస్తాము. మేము చూసిన వర్గాలకు సంబంధించి వాటి సంబంధిత వివరణలను ఉపయోగించడం ద్వారా కనిపించని వర్గాల ఉత్పాదక నమూనాల పారామితులను ఊహించాము. దీని కోసం మేము ఉపయోగించే సరళమైన విధానం యొక్క విజువలైజేషన్ క్రింద చూపబడింది:

ఒక పరీక్ష చిత్రం గరిష్ట సంభావ్యతతో వర్గానికి కేటాయించబడింది.
చిత్రాల సాపేక్ష వచన వర్ణనలను స్వయంచాలకంగా రూపొందించడం: నేను వివరించాల్సిన చిత్రాన్ని అందించినట్లయితే, మేము Iలో నేర్చుకున్న అన్ని ర్యాంకింగ్ ఫంక్షన్లను మూల్యాంకనం చేస్తాము. ప్రతి లక్షణం కోసం, Iకి ఇరువైపులా ఉన్న రెండు సూచన చిత్రాలను మేము గుర్తిస్తాము మరియు అవి చాలా దూరంలో లేదా దగ్గరగా ఉండవు. నుండి I. చిత్రం I ఈ రెండు సూచన చిత్రాలకు సంబంధించి, క్రింద చూపిన విధంగా వివరించబడింది:

పైన చూసినట్లుగా, ఇతర చిత్రాలకు సంబంధించి ఒక చిత్రాన్ని వివరించడంతో పాటు, మా విధానం ఇతర వర్గాలకు సంబంధించి ఒక చిత్రాన్ని కూడా వివరించగలదు, ఫలితంగా పూర్తిగా వచన వివరణ ఉంటుంది. స్పష్టంగా, సాపేక్ష వివరణలు సంప్రదాయ బైనరీ వివరణ కంటే మరింత ఖచ్చితమైనవి మరియు సమాచారంగా ఉంటాయి.
ప్రయోగాలు మరియు ఫలితాలు
మేము రెండు డేటాసెట్లపై ప్రయోగాలు చేస్తాము:
(1) అవుట్డోర్ సీన్ రికగ్నిషన్ (OSR) 8 వర్గాల నుండి 2688 చిత్రాలను కలిగి ఉంది: కోస్ట్ C, ఫారెస్ట్ F, హైవే H, లోపల-నగరం I, పర్వతం M, ఓపెన్-కంట్రీ O, వీధి S మరియు పొడవైన బిల్డింగ్ T. మేము సారాంశ లక్షణాలను ఉపయోగిస్తాము చిత్రాలను సూచించడానికి.
(2) పబ్లిక్ ఫిగర్స్ ఫేస్ డేటాబేస్ (పబ్ ఫిగ్) యొక్క ఉపసమితి 8 వర్గాల నుండి 772 చిత్రాలను కలిగి ఉంది: అలెక్స్ రోడ్రిగ్జ్ ఎ, క్లైవ్ ఓవెన్ సి, హ్యూ లారీ హెచ్, జారెడ్ లెటో జె, మైలీ సైరస్ M, స్కార్లెట్ జాన్సన్ ఎస్, విగ్గో మోర్టెన్సెన్ వి మరియు జాక్ ఎఫ్రాన్ Z. మేము చిత్రాలను సూచించడానికి సంగ్రహించబడిన సారాంశం మరియు మరియు రంగు లక్షణాలను ఉపయోగిస్తాము.
బైనరీ మరియు సంబంధిత అట్రిబ్యూట్ ఉల్లేఖనాలతో పాటు ప్రతి డేటాసెట్ కోసం ఉపయోగించే లక్షణాల జాబితా క్రింద చూపబడింది:

జీరో-షాట్ లెర్నింగ్:
మేము మా ప్రతిపాదిత విధానాన్ని రెండు బేస్లైన్లతో పోల్చాము. మొదటిది స్కోర్ ఆధారిత రిలేటివ్ అట్రిబ్యూట్స్ (SRA). ఈ బేస్లైన్ మా విధానం వలె ఉంటుంది, ఇది ర్యాంకింగ్ ఫంక్షన్ యొక్క స్కోర్లకు బదులుగా బైనరీ వర్గీకరణ (బైనరీ అట్రిబ్యూట్లు) స్కోర్లను ఉపయోగిస్తుంది. ఈ బేస్లైన్ ఉత్తమ మోడల్ సంబంధిత లక్షణాలకు ర్యాంకింగ్ ఫంక్షన్ అవసరాన్ని అంచనా వేయడానికి సహాయపడుతుంది. మా రెండవ ఆధారం లాంపెర్ట్ మరియు ఇతరులు ప్రవేశపెట్టిన డైరెక్ట్ అట్రిబ్యూట్ ప్రిడిక్షన్ (DAP) మోడల్. CVPR 2009లో. ఈ బేస్లైన్ వర్గీకరణకు విరుద్ధంగా గుణాల సాపేక్ష చికిత్స ప్రయోజనాలను మూల్యాంకనం చేయడంలో సహాయపడుతుంది. మేము ఈ విధానాలను విభిన్న సంఖ్యలో చూడని కేటగిరీలు, గుణాలకు శిక్షణ ఇవ్వడానికి ఉపయోగించే డేటా యొక్క వివిధ మొత్తాలు, కనిపించని వర్గాలను వివరించడానికి ఉపయోగించే వివిధ రకాల లక్షణాల కోసం మరియు కనిపించని వర్గాల వివరణలో ‘వదులు’ యొక్క వివిధ స్థాయిల కోసం మూల్యాంకనం చేస్తాము. ప్రయోగాత్మక సెటప్ వివరాలను మా పేపర్లో చూడవచ్చు. ఫలితాలు క్రింద చూపబడ్డాయి:

స్వయంచాలకంగా రూపొందించబడిన చిత్ర వివరణలు:
బైనరీ ప్రతిరూపాలకు మా సంబంధిత చిత్ర వివరణల నాణ్యతను అంచనా వేయడానికి, మేము మానవ అధ్యయనాన్ని నిర్వహించాము. మేము మా విధానాన్ని, అలాగే బేస్లైన్ బైనరీ అట్రిబ్యూట్లను ఉపయోగించి చిత్రం యొక్క వివరణను రూపొందించాము. మేము మూడు చిత్రాలతో పాటు ఈ వివరణతో విషయాలను అందించాము. మూడు చిత్రాలలో ఒకటి వర్ణించబడుతున్న చిత్రం. సబ్జెక్ట్ల పని ఏమిటంటే, మూడు చిత్రాలకు ర్యాంక్ ఇవ్వడం, వాటి ఆధారంగా వర్ణించబడేది ఎక్కువగా ఉంటుందని వారు భావించారు. వర్ణన ఎంత ఖచ్చితమైనదో, సబ్జెక్ట్లు సరైన చిత్రాన్ని గుర్తించే అవకాశాలు అంత మెరుగ్గా ఉంటాయి. సబ్జెక్ట్లకు సమర్పించబడిన టాస్క్ యొక్క దృష్టాంతం క్రింద చూపబడింది:

అధ్యయనం యొక్క ఫలితాలు క్రింద చూపబడ్డాయి. బైనరీ లక్షణాలతో పోలిస్తే, మా ప్రతిపాదిత సంబంధిత లక్షణాలను ఉపయోగించి సబ్జెక్ట్లు సరైన చిత్రాన్ని మరింత ఖచ్చితంగా గుర్తించగలవని మేము చూస్తాము.

చిత్రాల ఉదాహరణ బైనరీ వివరణలు అలాగే వర్గాలకు సంబంధించిన వివరణలు క్రింద చూపబడ్డాయి:
చిత్రం | బైనరీ వివరణలు | సంబంధిత వివరణలు |
సహజమైనది కాదుతెరవలేదుదృష్టికోణం | పొడవైన భవనం కంటే సహజమైనది, అడవి కంటే తక్కువ సహజమైనదిటాల్ బిల్డింగ్ కంటే ఎక్కువ ఓపెన్, తీరం కంటే తక్కువ ఓపెన్టాల్ బిల్డింగ్ కంటే ఎక్కువ దృక్కోణం | |
సహజమైనది కాదుతెరవలేదుదృష్టికోణం | అంతర్భాగం కంటే సహజమైనది, హైవే కంటే తక్కువ సహజమైనదివీధి కంటే ఎక్కువ ఓపెన్, తీరం కంటే తక్కువ ఓపెన్హైవే కంటే ఎక్కువ దృక్పథం, అంతర్భాగం కంటే తక్కువ దృక్పథం | |
సహజతెరవండిదృష్టికోణం | ఎత్తైన భవనం కంటే సహజమైనది, పర్వతం కంటే తక్కువ సహజమైనదిపర్వతం కంటే ఎక్కువ ఓపెన్ఓపెన్ కంట్రీ కంటే తక్కువ దృక్పథం | |
తెలుపునవ్వడం లేదుకనిపించే నుదురు | అలెక్స్ రోడ్రిగ్జ్ కంటే ఎక్కువ తెల్లగా ఉంటుందిజారెడ్లెటో కంటే ఎక్కువ నవ్వుతున్నారు, జాక్ఎఫ్రాన్ కంటే తక్కువ నవ్వుతున్నారుజారెడ్లెటో కంటే ఎక్కువగా కనిపించే నుదురు, మైలీసైరస్ కంటే తక్కువ కనిపించే నుదురు | |
తెలుపునవ్వడం లేదుకనిపించదు | అలెక్స్ రోడ్రిగ్జ్ కంటే ఎక్కువ తెలుపు, మిలేసైరస్ కంటే తక్కువ తెలుపుహగ్లారీ కంటే తక్కువ నవ్వుతుంటాడుజాక్ఎఫ్రాన్ కంటే ఎక్కువ కనిపించే నుదురు, మైలీసైరస్ కంటే తక్కువ కనిపించే నుదురు | |
యంగ్ కాదుగుబురు కనుబొమ్మలుగుండ్రటి ముఖము | క్లైవ్ఓవెన్ కంటే యంగ్, స్కార్లెట్ జాన్సన్ కంటే తక్కువ యంగ్జాక్ఎఫ్రాన్ కంటే ఎక్కువ బుష్ కనుబొమ్మలు, అలెక్స్ రోడ్రిగ్జ్ కంటే తక్కువ బుష్ కనుబొమ్మలుక్లైవ్ఓవెన్ కంటే ఎక్కువ రౌండ్ఫేస్, జాక్ఎఫ్రాన్ కంటే తక్కువ రౌండ్ఫేస్ |
సమాచారం
మేము మా పేపర్లో ఉపయోగించిన రెండు డేటాసెట్ల కోసం నేర్చుకున్న సంబంధిత లక్షణాలను మరియు వాటి అంచనాలను అందిస్తాము: అవుట్డోర్ సీన్ రికగ్నిషన్ (OSR) మరియు పబ్లిక్ ఫిగర్స్ ఫేస్ డేటాబేస్ (Pub Fig).
చదవండి
డౌన్లోడ్ (v2)
రిలేటివ్ ఫేస్ అట్రిబ్యూట్స్ డేటాసెట్. ఇది పబ్లిక్ ఫిగర్స్ ఫేస్ డేటాబేస్ (Pub Fig) నుండి 60 వర్గాలపై 29 సంబంధిత లక్షణాల కోసం ఉల్లేఖనాలను కలిగి ఉ
కోడ్
సారూప్యత పరిమితులతో సాపేక్ష లక్షణాలకు శిక్షణ ఇవ్వడానికి మేము Olivier Chappelle యొక్క RankSVM అమలును సవరించాము. మా సవరించిన కోడ్ని ఇక్కడ చూడవచ్చు.
మీరు మా కోడ్ని ఉపయోగిస్తుంటే, దయచేసి క్రింది పేపర్ను ఉదహరించండి:
D. పారిఖ్ మరియు K. గ్రామన్
సాపేక్ష లక్షణాలు
ఇంటర్నేషనల్ కాన్ఫరెన్స్ ఆన్ కంప్యూటర్ విజన్ (ICCV), 2011.
డెమోలు
సంబంధిత లక్షణాల యొక్క వివిధ అప్లికేషన్ల డెమోలను ఇక్కడ చూడవచ్చు. ఈ అప్లికేషన్ల వివరణ ఇక్కడ పేపర్లలో చూడవచ్చు.
ప్రచురణలు
D. పారిఖ్ మరియు K. గ్రామన్
సాపేక్ష లక్షణాలు
ఇంటర్నేషనల్ కాన్ఫరెన్స్ ఆన్ కంప్యూటర్ విజన్ (ICCV), 2011. (ఓరల్)
మార్ ప్రైజ్ (ఉత్తమ పేపర్ అవార్డు) విజేత
[స్లయిడ్లు] [చర్చ (వీడియో)] [పోస్టర్] [సంబంధిత వివరణల డెమో]
సంబంధిత లక్షణాలను ఉపయోగించే మా ఇతర పేపర్లు క్రిందివి:
A. బిస్వాస్ మరియు D. పారిఖ్
సాపేక్ష అభిప్రాయం ద్వారా వర్గీకరణలు & లక్షణాల యొక్క ఏకకాల క్రియాశీల అభ్యాసం
IEEE కాన్ఫరెన్స్ ఆన్ కంప్యూటర్ విజన్ అండ్ ప్యాటర్న్ రికగ్నిషన్ (CVPR), 2013
[ప్రాజెక్ట్ పేజీ మరియు డేటా] [పోస్టర్] [డెమో]
ఎ. ప్రకాష్ మరియు డి. పారిఖ్
వర్గీకరణ ఫీడ్బ్యాక్ కోసం లక్షణాలు
యూరోపియన్ కాన్ఫరెన్స్ ఆన్ కంప్యూటర్ విజన్ (ECCV), 2012 (ఓరల్)
[స్లయిడ్లు] [చర్చ (వీడియో)] [ప్రాజెక్ట్ పేజీ మరియు డేటా] [డెమో]
A. కోవాష్కా, D. పారిఖ్ మరియు K. గ్రామన్
విటిల్ సెర్చ్: సాపేక్ష లక్షణ అభిప్రాయంతో చిత్ర శోధన
IEEE కాన్ఫరెన్స్ ఆన్ కంప్యూటర్ విజన్ అండ్ ప్యాటర్న్ రికగ్నిషన్ (CVPR), 2012
[ప్రాజెక్ట్ పేజీ] [పోస్టర్] [డెమో]
D. పారిఖ్, A. కోవాష్కా, A. ప్రకాష్ మరియు K. గ్రౌమన్
మెరుగైన మానవ-మెషిన్ కమ్యూనికేషన్ కోసం సాపేక్ష లక్షణాలు (ఆహ్వానించబడిన కాగితం)
AAAI కాన్ఫరెన్స్ ఆన్ ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ (AAAI), 2012 (ఓరల్)