సాపేక్ష అట్రిబ్యూట

మార్ ప్రైజ్ (ఉత్తమ పేపర్ అవార్డు) విజేత, ICCV 2011

దేవి పారిఖ్ మరియు క్రిస్టెన్ గ్రామన్

ఇంద్రధనస్సులో వైలెట్ రంగు ముగుస్తుంది మరియు నారింజ రంగు ప్రారంభమయ్యే రేఖను ఎవరు గీయగలరు? స్పష్టంగా మనం రంగుల వ్యత్యాసాన్ని చూస్తాము, కానీ ఒకదానిలో మొదటగా మరొకదానిలోకి సరిగ్గా ఎక్కడ ప్రవేశిస్తుంది? కాబట్టి తెలివి మరియు పిచ్చితనంతో.”

— హెర్మన్ మెల్విల్లే, బిల్లీ బడ్

నైరూప్య

మానవ-పేరుగల దృశ్య “గుణాలు” వివిధ గుర్తింపు పనులకు ప్రయోజనం చేకూరుస్తాయి. ఏదేమైనప్పటికీ, ఇప్పటికే ఉన్న పద్ధతులు ఈ లక్షణాలను వర్గీకరణ లేబుల్‌లకు పరిమితం చేస్తాయి (ఉదాహరణకు, ఒక వ్యక్తి ‘నవ్వుతూ’ ఉన్నాడా లేదా, ఒక దృశ్యం ‘డ్రై’ లేదా కాదా), తద్వారా మరింత సాధారణ అర్థ సంబంధాలను సంగ్రహించడంలో విఫలమవుతుంది. మేము మోడల్ సాపేక్ష లక్షణాలను ప్రతిపాదిస్తాము. విభిన్న లక్షణాల ప్రకారం ఆబ్జెక్ట్/దృశ్య వర్గాలు ఎలా సంబంధం కలిగి ఉంటాయో తెలిపే శిక్షణ డేటాను బట్టి, మేము ఒక్కో లక్షణానికి ర్యాంకింగ్ ఫంక్షన్‌ని నేర్చుకుంటాము. నేర్చుకున్న ర్యాంకింగ్ ఫంక్షన్‌లు నవల చిత్రాలలో ప్రతి ఆస్తి యొక్క సాపేక్ష బలాన్ని అంచనా వేస్తాయి. మేము అట్రిబ్యూట్ ర్యాంకింగ్ అవుట్‌పుట్‌ల ఉమ్మడి స్థలంపై ఒక ఉత్పాదక నమూనాను రూపొందిస్తాము మరియు జీరో-షాట్ లెర్నింగ్ యొక్క నవల రూపాన్ని ప్రతిపాదిస్తాము, దీనిలో సూపర్‌వైజర్ కనిపించని ఆబ్జెక్ట్ కేటగిరీని గుణాల ద్వారా గతంలో చూసిన వస్తువులతో సంబంధం కలిగి ఉంటాడు (ఉదాహరణకు, ‘ఎలుగుబంట్లు జిరాఫీల కంటే బొచ్చుగా ఉంటాయి. ‘). ప్రతిపాదిత సాపేక్ష లక్షణాలు కొత్త చిత్రాల కోసం రిచ్ టెక్స్ట్ వర్ణనలను ఎలా ప్రారంభిస్తాయో మేము ఇంకా చూపుతాము, ఆచరణలో మానవ వివరణ కోసం ఇవి మరింత ఖచ్చితమైనవి. మేము ముఖాలు మరియు సహజ దృశ్యాల డేటాసెట్‌లపై విధానాన్ని ప్రదర్శిస్తాము మరియు ఈ కొత్త పనుల కోసం సాంప్రదాయ బైనరీ అట్రిబ్యూట్ ప్రిడిక్షన్‌పై దాని స్పష్టమైన ప్రయోజనాలను చూపుతాము.

ప్రేరణ

బైనరీ లక్షణాలు పరిమితమైనవి మరియు అసహజమైనవి కావచ్చు. పై ఉదాహరణలలో, ఎగువ-ఎడమ మరియు ఎగువ-కుడివైపు ఉన్న చిత్రాన్ని వరుసగా సహజంగా మరియు మానవ నిర్మితంగా వర్గీకరించవచ్చు, అయితే మీరు ఎగువ-మధ్యలో ఉన్న చిత్రాన్ని ఏ విధంగా వర్ణిస్తారు? ఇతర చిత్రాలకు సంబంధించి దానిని వర్గీకరించడానికి ఏకైక అర్ధవంతమైన మార్గం: ఇది ఎడమవైపు ఉన్న చిత్రం కంటే తక్కువ సహజమైనది, కానీ కుడివైపు ఉన్న చిత్రం కంటే ఎక్కువగా ఉంటుంది.

ప్రతిపాదన

ఈ పనిలో, మేము మోడల్ సాపేక్ష లక్షణాలను ప్రతిపాదిస్తాము. ఒక లక్షణం ఉనికిని అంచనా వేయడానికి విరుద్ధంగా, సాపేక్ష లక్షణం ఇతర చిత్రాలకు సంబంధించి ఒక చిత్రంలో ఒక లక్షణం యొక్క బలాన్ని సూచిస్తుంది. మరింత సహజంగా ఉండటమే కాకుండా, సాపేక్ష గుణాలు సంపన్నమైన కమ్యూనికేషన్ మోడ్‌ను అందిస్తాయి, తద్వారా మరింత వివరణాత్మక మానవ పర్యవేక్షణ (మరియు అధిక గుర్తింపు ఖచ్చితత్వం), అలాగే నవల చిత్రాల యొక్క మరింత సమాచార వివరణలను రూపొందించే సామర్థ్యాన్ని అనుమతిస్తుంది.

మేము ప్రతి లక్షణానికి ర్యాంకింగ్ ఫంక్షన్‌ను నేర్చుకునే విధానాన్ని రూపొందిస్తాము, ఉదాహరణల జతలపై సాపేక్ష సారూప్యత పరిమితులను అందించడం (లేదా సాధారణంగా కొన్ని ఉదాహరణలపై పాక్షిక క్రమం). నేర్చుకున్న ర్యాంకింగ్ ఫంక్షన్ ఇమేజ్‌లలోని అట్రిబ్యూట్ ఉనికి యొక్క సాపేక్ష బలాన్ని సూచించే వాస్తవ-విలువ గల ర్యాంక్‌ను అంచనా వేయగలదు.

 మేము జీరో-షాట్ లెర్నింగ్ యొక్క నవల రూపాలను మరియు సంబంధిత లక్షణ అంచనాలను ఉపయోగించుకునే చిత్ర వివరణను పరిచయం చేస్తాము.

అప్రోచ్

సాపేక్ష లక్షణాలను నేర్చుకోవడం: దిగువ చూపిన విధంగా తులనాత్మక పర్యవేక్షణ ఇచ్చిన ర్యాంక్ సూత్రీకరణ ద్వారా ప్రతి సంబంధిత లక్షణం నేర్చుకోవడం ద్వారా నేర్చుకుంటారు:

శిక్షణ పాయింట్లపై (1-6) కావలసిన క్రమాన్ని అమలు చేసే వైడ్-మార్జిన్ ర్యాంకింగ్ ఫంక్షన్ (కుడి) మరియు రెండు తరగతులను (+ మరియు -) మాత్రమే వేరు చేసే వైడ్-మార్జిన్ బైనరీ వర్గీకరణ (ఎడమ) మధ్య వ్యత్యాసం దిగువ చూపిన పాయింట్లపై కావలసిన క్రమాన్ని తప్పనిసరిగా సంరక్షించకూడదు:

నవల జీరో-షాట్ లెర్నింగ్: మేము ఈ క్రింది సెటప్‌ను అధ్యయనం చేస్తాము

N మొత్తం వర్గాలు: S చూసిన వర్గాలు (అనుబంధ చిత్రాలు అందుబాటులో ఉన్నాయి

) + U చూడని వర్గాలు (ఈ వర్గాలకు చిత్రాలు అందుబాటులో లేవు)

S చూసిన కేటగిరీలు గుణాల ద్వారా ఒకదానికొకటి సాపేక్షంగా వివరించబడ్డాయి (అన్ని గుణాలకు సంబంధించిన అన్ని జతల కేటగిరీలు అవసరం లేదు)

U కనిపించని కేటగిరీలు (ఉపసమితి) లక్షణాల పరంగా చూసిన వర్గాలకు సంబంధించి (ఉపసమితి) వివరించబడ్డాయి.

మేము మొదట చూసిన వర్గాలపై అందించిన పర్యవేక్షణను ఉపయోగించి సంబంధిత లక్షణాల సమితికి శిక్షణ ఇస్తాము. ఈ లక్షణాలను బాహ్య డేటా నుండి కూడా ముందే శిక్షణ పొందవచ్చు. మేము చూసిన వర్గాల నుండి చిత్రాలకు సంబంధిత లక్షణాల ప్రతిస్పందనలను ఉపయోగించి చూసిన ప్రతి వర్గానికి ఉత్పాదక నమూనాను (గాస్సియన్) రూపొందిస్తాము. మేము చూసిన వర్గాలకు సంబంధించి వాటి సంబంధిత వివరణలను ఉపయోగించడం ద్వారా కనిపించని వర్గాల ఉత్పాదక నమూనాల పారామితులను ఊహించాము. దీని కోసం మేము ఉపయోగించే సరళమైన విధానం యొక్క విజువలైజేషన్ క్రింద చూపబడింది:

ఒక పరీక్ష చిత్రం గరిష్ట సంభావ్యతతో వర్గానికి కేటాయించబడింది.

చిత్రాల సాపేక్ష వచన వర్ణనలను స్వయంచాలకంగా రూపొందించడం: నేను వివరించాల్సిన చిత్రాన్ని అందించినట్లయితే, మేము Iలో నేర్చుకున్న అన్ని ర్యాంకింగ్ ఫంక్షన్‌లను మూల్యాంకనం చేస్తాము. ప్రతి లక్షణం కోసం, Iకి ఇరువైపులా ఉన్న రెండు సూచన చిత్రాలను మేము గుర్తిస్తాము మరియు అవి చాలా దూరంలో లేదా దగ్గరగా ఉండవు. నుండి I. చిత్రం I ఈ రెండు సూచన చిత్రాలకు సంబంధించి, క్రింద చూపిన విధంగా వివరించబడింది:

పైన చూసినట్లుగా, ఇతర చిత్రాలకు సంబంధించి ఒక చిత్రాన్ని వివరించడంతో పాటు, మా విధానం ఇతర వర్గాలకు సంబంధించి ఒక చిత్రాన్ని కూడా వివరించగలదు, ఫలితంగా పూర్తిగా వచన వివరణ ఉంటుంది. స్పష్టంగా, సాపేక్ష వివరణలు సంప్రదాయ బైనరీ వివరణ కంటే మరింత ఖచ్చితమైనవి మరియు సమాచారంగా ఉంటాయి.

ప్రయోగాలు మరియు ఫలితాలు

మేము రెండు డేటాసెట్లపై ప్రయోగాలు చేస్తాము:

(1) అవుట్‌డోర్ సీన్ రికగ్నిషన్ (OSR) 8 వర్గాల నుండి 2688 చిత్రాలను కలిగి ఉంది: కోస్ట్ C, ఫారెస్ట్ F, హైవే H, లోపల-నగరం I, పర్వతం M, ఓపెన్-కంట్రీ O, వీధి S మరియు పొడవైన బిల్డింగ్ T. మేము సారాంశ లక్షణాలను ఉపయోగిస్తాము చిత్రాలను సూచించడానికి.

(2) పబ్లిక్ ఫిగర్స్ ఫేస్ డేటాబేస్ (పబ్ ఫిగ్) యొక్క ఉపసమితి 8 వర్గాల నుండి 772 చిత్రాలను కలిగి ఉంది: అలెక్స్ రోడ్రిగ్జ్ ఎ, క్లైవ్ ఓవెన్ సి, హ్యూ లారీ హెచ్, జారెడ్ లెటో జె, మైలీ సైరస్ M, స్కార్లెట్ జాన్సన్ ఎస్, విగ్గో మోర్టెన్‌సెన్ వి మరియు జాక్ ఎఫ్రాన్ Z. మేము చిత్రాలను సూచించడానికి సంగ్రహించబడిన సారాంశం మరియు మరియు రంగు లక్షణాలను ఉపయోగిస్తాము.

బైనరీ మరియు సంబంధిత అట్రిబ్యూట్ ఉల్లేఖనాలతో పాటు ప్రతి డేటాసెట్ కోసం ఉపయోగించే లక్షణాల జాబితా క్రింద చూపబడింది:

జీరో-షాట్ లెర్నింగ్:

మేము మా ప్రతిపాదిత విధానాన్ని రెండు బేస్‌లైన్‌లతో పోల్చాము. మొదటిది స్కోర్ ఆధారిత రిలేటివ్ అట్రిబ్యూట్స్ (SRA). ఈ బేస్‌లైన్ మా విధానం వలె ఉంటుంది, ఇది ర్యాంకింగ్ ఫంక్షన్ యొక్క స్కోర్‌లకు బదులుగా బైనరీ వర్గీకరణ (బైనరీ అట్రిబ్యూట్‌లు) స్కోర్‌లను ఉపయోగిస్తుంది. ఈ బేస్‌లైన్ ఉత్తమ మోడల్ సంబంధిత లక్షణాలకు ర్యాంకింగ్ ఫంక్షన్ అవసరాన్ని అంచనా వేయడానికి సహాయపడుతుంది. మా రెండవ ఆధారం లాంపెర్ట్ మరియు ఇతరులు ప్రవేశపెట్టిన డైరెక్ట్ అట్రిబ్యూట్ ప్రిడిక్షన్ (DAP) మోడల్. CVPR 2009లో. ఈ బేస్‌లైన్ వర్గీకరణకు విరుద్ధంగా గుణాల సాపేక్ష చికిత్స ప్రయోజనాలను మూల్యాంకనం చేయడంలో సహాయపడుతుంది. మేము ఈ విధానాలను విభిన్న సంఖ్యలో చూడని కేటగిరీలు, గుణాలకు శిక్షణ ఇవ్వడానికి ఉపయోగించే డేటా యొక్క వివిధ మొత్తాలు, కనిపించని వర్గాలను వివరించడానికి ఉపయోగించే వివిధ రకాల లక్షణాల కోసం మరియు కనిపించని వర్గాల వివరణలో ‘వదులు’ యొక్క వివిధ స్థాయిల కోసం మూల్యాంకనం చేస్తాము. ప్రయోగాత్మక సెటప్ వివరాలను మా పేపర్‌లో చూడవచ్చు. ఫలితాలు క్రింద చూపబడ్డాయి:

స్వయంచాలకంగా రూపొందించబడిన చిత్ర వివరణలు:

 బైనరీ ప్రతిరూపాలకు మా సంబంధిత చిత్ర వివరణల నాణ్యతను అంచనా వేయడానికి, మేము మానవ అధ్యయనాన్ని నిర్వహించాము. మేము మా విధానాన్ని, అలాగే బేస్‌లైన్ బైనరీ అట్రిబ్యూట్‌లను ఉపయోగించి చిత్రం యొక్క వివరణను రూపొందించాము. మేము మూడు చిత్రాలతో పాటు ఈ వివరణతో విషయాలను అందించాము. మూడు చిత్రాలలో ఒకటి వర్ణించబడుతున్న చిత్రం. సబ్జెక్ట్‌ల పని ఏమిటంటే, మూడు చిత్రాలకు ర్యాంక్ ఇవ్వడం, వాటి ఆధారంగా వర్ణించబడేది ఎక్కువగా ఉంటుందని వారు భావించారు. వర్ణన ఎంత ఖచ్చితమైనదో, సబ్జెక్ట్‌లు సరైన చిత్రాన్ని గుర్తించే అవకాశాలు అంత మెరుగ్గా ఉంటాయి. సబ్జెక్ట్‌లకు సమర్పించబడిన టాస్క్ యొక్క దృష్టాంతం క్రింద చూపబడింది:

అధ్యయనం యొక్క ఫలితాలు క్రింద చూపబడ్డాయి. బైనరీ లక్షణాలతో పోలిస్తే, మా ప్రతిపాదిత సంబంధిత లక్షణాలను ఉపయోగించి సబ్జెక్ట్‌లు సరైన చిత్రాన్ని మరింత ఖచ్చితంగా గుర్తించగలవని మేము చూస్తాము.

చిత్రాల ఉదాహరణ బైనరీ వివరణలు అలాగే వర్గాలకు సంబంధించిన వివరణలు క్రింద చూపబడ్డాయి:

చిత్రంబైనరీ వివరణలుసంబంధిత వివరణలు

సహజమైనది కాదుతెరవలేదుదృష్టికోణం

పొడవైన భవనం కంటే సహజమైనది, అడవి కంటే తక్కువ సహజమైనదిటాల్ బిల్డింగ్ కంటే ఎక్కువ ఓపెన్, తీరం కంటే తక్కువ ఓపెన్టాల్ బిల్డింగ్ కంటే ఎక్కువ దృక్కోణం


సహజమైనది కాదుతెరవలేదుదృష్టికోణం

అంతర్భాగం కంటే సహజమైనది, హైవే కంటే తక్కువ సహజమైనదివీధి కంటే ఎక్కువ ఓపెన్, తీరం కంటే తక్కువ ఓపెన్హైవే కంటే ఎక్కువ దృక్పథం, అంతర్భాగం కంటే తక్కువ దృక్పథం


సహజతెరవండిదృష్టికోణం

ఎత్తైన భవనం కంటే సహజమైనది, పర్వతం కంటే తక్కువ సహజమైనదిపర్వతం కంటే ఎక్కువ ఓపెన్ఓపెన్ కంట్రీ కంటే తక్కువ దృక్పథం


తెలుపునవ్వడం లేదుకనిపించే నుదురు

అలెక్స్ రోడ్రిగ్జ్ కంటే ఎక్కువ తెల్లగా ఉంటుందిజారెడ్‌లెటో కంటే ఎక్కువ నవ్వుతున్నారు, జాక్‌ఎఫ్రాన్ కంటే తక్కువ నవ్వుతున్నారుజారెడ్‌లెటో కంటే ఎక్కువగా కనిపించే నుదురు, మైలీసైరస్ కంటే తక్కువ కనిపించే నుదురు


తెలుపునవ్వడం లేదుకనిపించదు

అలెక్స్ రోడ్రిగ్జ్ కంటే ఎక్కువ తెలుపు, మిలేసైరస్ కంటే తక్కువ తెలుపుహగ్‌లారీ కంటే తక్కువ నవ్వుతుంటాడుజాక్‌ఎఫ్రాన్ కంటే ఎక్కువ కనిపించే నుదురు, మైలీసైరస్ కంటే తక్కువ కనిపించే నుదురు


యంగ్ కాదుగుబురు కనుబొమ్మలుగుండ్రటి ముఖము

క్లైవ్‌ఓవెన్ కంటే యంగ్, స్కార్లెట్ జాన్సన్ కంటే తక్కువ యంగ్జాక్‌ఎఫ్రాన్ కంటే ఎక్కువ బుష్ కనుబొమ్మలు, అలెక్స్ రోడ్రిగ్జ్ కంటే తక్కువ బుష్ కనుబొమ్మలుక్లైవ్‌ఓవెన్ కంటే ఎక్కువ రౌండ్‌ఫేస్, జాక్‌ఎఫ్రాన్ కంటే తక్కువ రౌండ్‌ఫేస్

సమాచారం

మేము మా పేపర్‌లో ఉపయోగించిన రెండు డేటాసెట్‌ల కోసం నేర్చుకున్న సంబంధిత లక్షణాలను మరియు వాటి అంచనాలను అందిస్తాము: అవుట్‌డోర్ సీన్ రికగ్నిషన్ (OSR) మరియు పబ్లిక్ ఫిగర్స్ ఫేస్ డేటాబేస్ (Pub Fig).

చదవండి

డౌన్‌లోడ్ (v2)

రిలేటివ్ ఫేస్ అట్రిబ్యూట్స్ డేటాసెట్. ఇది పబ్లిక్ ఫిగర్స్ ఫేస్ డేటాబేస్ (Pub Fig) నుండి 60 వర్గాలపై 29 సంబంధిత లక్షణాల కోసం ఉల్లేఖనాలను కలిగి ఉ

కోడ్

సారూప్యత పరిమితులతో సాపేక్ష లక్షణాలకు శిక్షణ ఇవ్వడానికి మేము Olivier Chappelle యొక్క RankSVM అమలును సవరించాము. మా సవరించిన కోడ్‌ని ఇక్కడ చూడవచ్చు.

 మీరు మా కోడ్‌ని ఉపయోగిస్తుంటే, దయచేసి క్రింది పేపర్‌ను ఉదహరించండి:

D. పారిఖ్ మరియు K. గ్రామన్

సాపేక్ష లక్షణాలు

ఇంటర్నేషనల్ కాన్ఫరెన్స్ ఆన్ కంప్యూటర్ విజన్ (ICCV), 2011.

డెమోలు

సంబంధిత లక్షణాల యొక్క వివిధ అప్లికేషన్ల డెమోలను ఇక్కడ చూడవచ్చు. ఈ అప్లికేషన్ల వివరణ ఇక్కడ పేపర్లలో చూడవచ్చు.

ప్రచురణలు

D. పారిఖ్ మరియు K. గ్రామన్

సాపేక్ష లక్షణాలు

ఇంటర్నేషనల్ కాన్ఫరెన్స్ ఆన్ కంప్యూటర్ విజన్ (ICCV), 2011. (ఓరల్)

మార్ ప్రైజ్ (ఉత్తమ పేపర్ అవార్డు) విజేత

[స్లయిడ్‌లు] [చర్చ (వీడియో)] [పోస్టర్] [సంబంధిత వివరణల డెమో]

 సంబంధిత లక్షణాలను ఉపయోగించే మా ఇతర పేపర్‌లు క్రిందివి:

 A. బిస్వాస్ మరియు D. పారిఖ్

సాపేక్ష అభిప్రాయం ద్వారా వర్గీకరణలు & లక్షణాల యొక్క ఏకకాల క్రియాశీల అభ్యాసం

IEEE కాన్ఫరెన్స్ ఆన్ కంప్యూటర్ విజన్ అండ్ ప్యాటర్న్ రికగ్నిషన్ (CVPR), 2013

[ప్రాజెక్ట్ పేజీ మరియు డేటా] [పోస్టర్] [డెమో]

ఎ. ప్రకాష్ మరియు డి. పారిఖ్

వర్గీకరణ ఫీడ్‌బ్యాక్ కోసం లక్షణాలు

యూరోపియన్ కాన్ఫరెన్స్ ఆన్ కంప్యూటర్ విజన్ (ECCV), 2012 (ఓరల్)

[స్లయిడ్‌లు] [చర్చ (వీడియో)] [ప్రాజెక్ట్ పేజీ మరియు డేటా] [డెమో]

A. కోవాష్కా, D. పారిఖ్ మరియు K. గ్రామన్

విటిల్ సెర్చ్: సాపేక్ష లక్షణ అభిప్రాయంతో చిత్ర శోధన

IEEE కాన్ఫరెన్స్ ఆన్ కంప్యూటర్ విజన్ అండ్ ప్యాటర్న్ రికగ్నిషన్ (CVPR), 2012

[ప్రాజెక్ట్ పేజీ] [పోస్టర్] [డెమో]

 D. పారిఖ్, A. కోవాష్కా, A. ప్రకాష్ మరియు K. గ్రౌమన్

మెరుగైన మానవ-మెషిన్ కమ్యూనికేషన్ కోసం సాపేక్ష లక్షణాలు (ఆహ్వానించబడిన కాగితం)

AAAI కాన్ఫరెన్స్ ఆన్ ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ (AAAI), 2012 (ఓరల్)