প্রশিক্ষণ / পূর্বাভাসের জন্য চিত্রের ডেটা ফর্ম্যাট করবেন কীভাবে চিত্রগুলি আকারে ভিন্ন হয়?


90

আমি আমার মডেলটিকে প্রশিক্ষণের চেষ্টা করছি যা চিত্রগুলিকে শ্রেণিবদ্ধ করে। আমার সমস্যাটি হ'ল তাদের আকার বিভিন্ন। আমি কীভাবে আমার চিত্রগুলি / বা মডেল আর্কিটেকচারটি ফর্ম্যাট করব?


4
আপনি এখন পর্যন্ত কী চেষ্টা করেছেন এবং কী আপনার জন্য কাজ করছে না বলে মনে হচ্ছে তা দয়া করে দেখান।
কিথ জন হাচিসন

16
এবং বাম সেখানে ইনসেপশন v4 এর কোড যায়। আমি এই অফ-শেল্ফ মন্তব্যটির সাথে একমত নই। আরও কিছুটা ইনপুট চমৎকার হবে - আমরা কী ধরণের নেট এর কথা বলছি - তবে ডাউনভোটগুলি মোটেও ন্যায়সঙ্গত নয়। যে হয় একটি বাস্তব সমস্যা।
সূর্যমুখী

4
প্রশ্নটি কীভাবে ইমেজনেট তাদের চিত্রের ডেটা প্রশিক্ষণের জন্য কার্যকর হতে পারে তা ফর্ম্যাট করে?
mskw

উত্তর:


148

আপনি কোন আর্কিটেকচারের কথা বলছেন তা আপনি বলেননি। যেহেতু আপনি বলেছেন যে আপনি চিত্রগুলিকে শ্রেণিবদ্ধ করতে চান, তাই আমি এটি আংশিক সমঝোতা, আলেকসনেট, গুগলনেট ইত্যাদির মতো আংশিকভাবে সম্পূর্ণ সংযুক্ত নেটওয়ার্ক হিসাবে ধরে নিচ্ছি যে সাধারণভাবে, আপনার প্রশ্নের উত্তর আপনি যে নেটওয়ার্কের সাথে কাজ করছেন তার উপর নির্ভর করে।

উদাহরণস্বরূপ, যদি আপনার নেটওয়ার্কটিতে কেবল কনভোলশনাল ইউনিট থাকে - তবে এটি বলতে গেলে সম্পূর্ণরূপে সংযুক্ত স্তর থাকে না - এটি ইনপুট চিত্রের আকারের জন্য অদম্য হতে পারে। এই জাতীয় নেটওয়ার্ক ইনপুট চিত্রগুলি প্রক্রিয়া করতে পারে এবং পরিবর্তে অন্য চিত্রটি ("সমস্ত উপায়ে সমঝোতা") ফিরিয়ে আনতে পারে ; আপনাকে অবশ্যই নিশ্চিত করতে হবে যে আউটপুটটি আপনার প্রত্যাশার সাথে মিলে যায়, যেহেতু অবশ্যই আপনাকে কোনওভাবে ক্ষতি নির্ধারণ করতে হবে।

আপনি যদি সম্পূর্ণ সংযুক্ত ইউনিটগুলি ব্যবহার করেন তবে, আপনি সমস্যার মুখোমুখি হয়ে উঠছেন: এখানে আপনার নেটওয়ার্কের সাথে কাজ করতে হবে এমন নির্দিষ্ট পরিমাণ ওজনের একটি নির্দিষ্ট পরিমাণ রয়েছে, তাই পরিবর্তিত ইনপুটগুলির জন্য বিভিন্ন ধরণের ওজনের প্রয়োজন হয় - এবং এটি সম্ভব নয়।

যদি এটি আপনার সমস্যা হয় তবে এখানে কিছু কাজ আপনি করতে পারেন:

  • চিত্রগুলি স্কোয়াশ করার বিষয়ে চিন্তা করবেন না। একটি নেটওয়ার্ক যে কোনও উপায়ে বিষয়বস্তু বোধ করতে শিখতে পারে; স্কেল এবং দৃষ্টিকোণ যাইহোক সামগ্রীতে কিছু বোঝায়?
  • একটি নির্দিষ্ট আকারে চিত্রগুলি কেন্দ্র-ক্রপ করুন। যদি আপনি আশঙ্কা করেন যে আপনি ডেটা হারাচ্ছেন, একাধিক ফসল করুন এবং এগুলি আপনার ইনপুট ডেটা বাড়ানোর জন্য ব্যবহার করুন, যাতে মূল চিত্রটি Nসঠিক আকারের বিভিন্ন চিত্রগুলিতে বিভক্ত হয়ে যায় ।
  • স্কোয়ার আকারে দৃ solid় রঙের সাথে চিত্রগুলি প্যাড করুন, তারপরে পুনরায় আকার দিন।
  • এর সংমিশ্রণটি করুন।

প্যাডিং বিকল্পটি নেটওয়ার্কের পূর্বাভাসের জন্য একটি অতিরিক্ত ত্রুটি উত্স উপস্থাপন করতে পারে, কারণ নেটওয়ার্কটি (পড়ুন: সম্ভবত হবে) এমন প্যাডযুক্ত সীমানাযুক্ত চিত্রগুলিতে পক্ষপাতদুষ্ট থাকবে। আপনার যদি কিছু ধারণা প্রয়োজন, টেনসরফ্লো ডকুমেন্টেশনের চিত্র বিভাগটি দেখুন , এর মতো টুকরোগুলি আরও resize_image_with_crop_or_padবড় কাজটি সরিয়ে ফেলবে ।

যেমন কেবল স্কোয়াশিংয়ের বিষয়ে যত্ন নেই, এখানে বিখ্যাত ইনসেপশন নেটওয়ার্কের প্রিপ্রোসেসিং পাইপলাইনের একটি অংশ রয়েছে:

# This resizing operation may distort the images because the aspect
# ratio is not respected. We select a resize method in a round robin
# fashion based on the thread number.
# Note that ResizeMethod contains 4 enumerated resizing methods.

# We select only 1 case for fast_mode bilinear.
num_resize_cases = 1 if fast_mode else 4
distorted_image = apply_with_random_selector(
    distorted_image,
    lambda x, method: tf.image.resize_images(x, [height, width], method=method),
    num_cases=num_resize_cases)

তারা এটি সম্পর্কে পুরোপুরি সচেতন এবং যাইহোক এটি করুন।

কতদূর আপনি চান বা প্রয়োজন যেতে উপর ভিত্তি করে, সেখানে আসলে একটি কাগজ এখানে বলা ভিসুয়াল স্বীকৃতির জন্য ডীপ সংবর্তন নেটওয়ার্ক মধ্যে স্থানিক পিরামিড পুলিং যে হ্যান্ডলগুলি তাদের একটি খুব বিশেষ পদ্ধতিতে প্রক্রিয়াকরণ দ্বারা নির্বিচারে আকারের ইনপুট।


11
আপনি যখন বিষয়বস্তু সনাক্তকরণ এবং উদাহরণ বিভাগগুলি নিয়ে কাজ করছেন তখন এই বিষয়টি আরও জটিল বলে মনে হচ্ছে, কারণ অ্যাঙ্কর বাক্স আকারগুলি যা হাইপারপ্যারামিটারগুলি সমন্বিত হওয়া প্রয়োজন যদি আপনার চিত্রের আকারগুলিতে উচ্চতর বৈকল্পিকতা সহ একটি ডেটাসেট থাকে।
সিএমসিডিগ্রাগনকাই

বৃত্ত এবং উপবৃত্তের মধ্যে পার্থক্য করার জন্য এমন নেটওয়ার্কের জন্য দিকের অনুপাতগুলি বেশ গুরুত্বপূর্ণ ভূমিকা পালন করে।
হ্যালো গুডবাই

4
আরেকটি সাধারণ পর্যবেক্ষণ হ'ল ব্যাচগুলির প্রয়োজনীয় অভিন্ন মাত্রা থাকতে হবে না; প্রথম ব্যাচটি 4: 3 চিত্র নিয়ে কাজ করতে পারে, দ্বিতীয়টি 16: 9 ইত্যাদি সহ, যতক্ষণ না ঘন স্তরগুলির যত্ন নেওয়া হয়।
সূর্যমুখী

4
@ টোবিটার, সর্বদা নেটওয়ার্কের ইনপুটগুলিকে যতটা সম্ভব প্রকৃত (পরীক্ষা, বা অনুমান-সময়) ডেটার কাছে রাখুন। আপনার সমস্ত চিত্র যদি উচ্চের চেয়ে অনেক বেশি বিস্তৃত হয় তবে আপনার চিত্রগুলি এভাবে প্রসেস করার জন্য আপনার নেটওয়ার্কটিও মডেল করা উচিত। এটি বলেছিল, আপনার "ব্যবহার" ডেটা কেমন হবে আপনি যদি তা সম্ভব না বলতে পারেন তবে প্রশিক্ষণের সময় আপনাকে কিছু ত্যাগ স্বীকার করতে হবে। এবং সেক্ষেত্রে, 1000x200 থেকে 256x256 এ কোনও চিত্রের আকার পরিবর্তন করা সাধারণত ঠিক আছে (license০ ডিগ্রি কোণে সেই লাইসেন্স প্লেটটি দেখুন - এটি এখন প্রায় মোটামুটি বর্গক্ষেত্র)।
সূর্যমুখী

4
@ টোবিটার চিত্রগুলির বর্গক্ষেত্র হওয়ার জন্য মোটেও কোনও প্রয়োজন নেই, আপনি যদি অনুমানের সময় প্রকৃত চিত্রের আকারগুলি না জানেন তবে এটি সর্বনিম্ন খারাপ ট্রেড অফ হিসাবে ঘটে। : ^) আকারের হিসাবে, আরও কম ভাল, তবে চিত্রগুলি এখনও প্রয়োজনীয় প্রয়োজনীয় বিবরণ ক্যাপচারের জন্য যথেষ্ট বড় হওয়া দরকার - সাধারণভাবে বলতে গেলে, কেবল মনে রাখবেন যে আপনি যদি একজন মানব বিশেষজ্ঞ হিসাবে সম্ভবত এটি নির্ধারণ করতে না পারেন তবে এর মধ্যে কী রয়েছে চিত্র, নেটওয়ার্কও সক্ষম হবে না।
সূর্যমুখী

11

একটি স্থানিক পিরামিড পুলিং স্তর তৈরি করার চেষ্টা করুন। তারপরে এটি আপনার শেষ সমাবর্তন স্তরটির পরে রাখুন যাতে এফসি স্তরগুলি সর্বদা ইনপুট হিসাবে ধ্রুব মাত্রিক ভেক্টর পেতে পারে। প্রশিক্ষণ চলাকালীন, একটি পর্বের জন্য একটি নির্দিষ্ট চিত্রের আকার ব্যবহার করে পুরো ডেটাसेट থেকে চিত্রগুলি প্রশিক্ষণ দিন। তারপরে পরবর্তী যুগের জন্য, ভিন্ন চিত্রের আকারে স্যুইচ করুন এবং প্রশিক্ষণ চালিয়ে যান।


আপনি নিয়মিত পুলিংয়ের তুলনায় "স্পেসিয়াল পিরামিড পুলিং" কী তা সম্পর্কে কিছুটা ব্যাখ্যা করতে পারেন?
ম্যাথিউউ

অনুগ্রহ করে ব্লগ.এসিওলিআর.আর / ২০১7 / ২০১৩
আসিফ মোহাম্মদ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.