গোলমাল স্ট্রিংয়ের তালিকা থেকে ক্যানোনিকাল স্ট্রিংটি বের করুন


10

আমার কাছে কয়েক হাজার স্ট্রিংয়ের তালিকা রয়েছে এবং প্রতিটি তালিকায় প্রায় 10 টি স্ট্রিং রয়েছে। প্রদত্ত তালিকার বেশিরভাগ স্ট্রিং খুব একই রকম, যদিও কিছু স্ট্রিং (খুব কমই) অন্যের সাথে সম্পূর্ণ অপ্রাসঙ্গিক এবং কিছু স্ট্রিং অপ্রাসঙ্গিক শব্দ ধারণ করে। এগুলিকে একটি আড়ম্বরপূর্ণ স্ট্রিংয়ের শোরগোল বৈচিত্র হিসাবে বিবেচনা করা যেতে পারে। আমি একটি অ্যালগরিদম বা একটি লাইব্রেরি খুঁজছি যা প্রতিটি তালিকাকে এই নীতিগত স্ট্রিংয়ে রূপান্তরিত করে।

এই জাতীয় একটি তালিকা এখানে।

  • স্টার ওয়ার্স: চতুর্থ পর্ব একটি নতুন আশা | StarWars.com
  • স্টার ওয়ার্স পর্ব চতুর্থ - একটি নতুন আশা (1977)
  • স্টার ওয়ার্স: চতুর্থ পর্ব - একটি নতুন আশা - পচা টমেটো
  • স্টার ওয়ার্স দেখুন: চতুর্থ পর্ব - একটি নতুন আশা অনলাইন বিনামূল্যে
  • স্টার ওয়ার্স (1977) - দুর্দান্ত ফিল্ম
  • [আরইসি] ৪ টি পোস্টার আউটবোর্ড মোটর দিয়ে মৃত্যুর প্রতিশ্রুতি দিয়েছে - সায়িফাইনাও

এই তালিকার জন্য, নিয়মিত প্রকাশের ^Star Wars:? Episode IV (- )?A New Hope$সাথে মিলে যাওয়া যে কোনও স্ট্রিং গ্রহণযোগ্য হবে।

আমি কোর্সেরায় মেশিন লার্নিংয়ের অ্যান্ড্রু এনগির কোর্সটি দেখেছি, তবে আমি তেমন কোনও সমস্যা খুঁজে পাইনি।


2
পিএস আমি মনে করি আপনি যে শব্দটির সন্ধান করছেন তা হ'ল "আধ্যাত্মিক"
শন

আপনি যে "সবচেয়ে সম্ভাবনাময়" / "সর্বাধিক সম্মতিযুক্ত" স্ট্রিংটি নিয়মিত প্রকাশকে আদর্শ হিসাবে দেখছেন? নাকি তালিকার একটি স্ট্রিং আছে?
মিঃ মেরিটোলজি

@ মিঃ মেরিটরিওলজি আমি একটি নিয়মিত অভিব্যক্তি খুঁজছি না। আমি সঠিকভাবে বিবেচনা করব এমন ধরণের স্ট্রিংয়ের ক্ষেত্রে আমি কতটা নমনীয় তা বোঝানোর জন্য আমি আমার প্রশ্নে একটি নিয়মিত প্রকাশ দেখিয়েছি।
ল্যাকটন

ঠিক আছে. তারপরে আমি নীচে দেওয়া উত্তরটি আপনার পক্ষে কাজ করা উচিত।
মিঃ মেরিটোলজি

এটি কি এনইআর (নাম সত্তার স্বীকৃতি) এর আওতায় আসবে?
হিপ্পিট্রেইল

উত্তর:


4

একটি নিষ্পাপ সমাধান হিসাবে আমি প্রথমে তালিকার অভ্যন্তরে সবচেয়ে ঘন ঘন টোকেনগুলি যুক্ত স্ট্রিংগুলি নির্বাচন করার পরামর্শ দেব। এইভাবে আপনি অপ্রাসঙ্গিক স্ট্রিং থেকে মুক্তি পেতে পারেন।

দ্বিতীয় বাক্যে আমি সংখ্যাগরিষ্ঠ ভোটদান করব। 3 টি বাক্য ধরে নেওয়া:

  • স্টার ওয়ার্স: চতুর্থ পর্ব একটি নতুন আশা | StarWars.com
  • স্টার ওয়ার্স পর্ব চতুর্থ - একটি নতুন আশা (1977)
  • স্টার ওয়ার্স: চতুর্থ পর্ব - একটি নতুন আশা - পচা টমেটো

আমি টোকেন দিয়ে এক এক করে যেতাম। আমরা "স্টার" দিয়ে শুরু করি। এটির সাথে সমস্ত স্ট্রিং শুরু হওয়ার সাথে সাথে এটি জিতে যায়। "যুদ্ধ" জিতবে। পরেরটি হ'ল ":"। এটিও জিতবে।

সমস্ত টোকেনগুলি "আশা" অবধি সংখ্যাগরিষ্ঠ ভোটে অংশ নেবে। "হোপ" এর পরের টোকেনটি হয় "|", বা "(" বা "-" হবে। সংখ্যাগরিষ্ঠ ভোটে কোনটিই জিতবে না তাই আমি এখানেই থামব!

আর একটি সমাধান সম্ভবত দীর্ঘতম উপসর্গ ব্যবহার করা হবে ।

যেমনটি আমি বলেছিলাম যে এটি সম্পর্কে খুব বেশি কিছু নেই। সুতরাং আপনার সমস্যার আরও অনেক ভাল সমাধান হতে পারে :-)


3

প্রথমে সমস্ত জোড় স্ট্রিংয়ের মধ্যে সম্পাদনার দূরত্বটি গণনা করুন। দেখুন http://en.wikipedia.org/wiki/Edit_distance এবং http://web.stanford.edu/class/cs124/lec/med.pdf । তারপরে কিছু দূরত্বের প্রান্তিকের উপর ভিত্তি করে যে কোনও আউটলিয়ার স্ট্রিং বাদ দিন।

বাকি স্ট্রিংগুলির সাথে, আপনি সর্বাধিক কেন্দ্রীয় স্ট্রিং সনাক্ত করতে দূরত্বের ম্যাট্রিক্স ব্যবহার করতে পারেন। আপনি যে পদ্ধতিটি ব্যবহার করছেন তার উপর নির্ভর করে আপনি কিছু ডেটার জন্য অস্পষ্ট ফলাফল পেতে পারেন। কোনও পদ্ধতিই সমস্ত সম্ভাবনার জন্য নিখুঁত। আপনার উদ্দেশ্যগুলির জন্য, আপনার অস্পষ্টতাগুলি সমাধান করার জন্য আপনার কেবলমাত্র কয়েকটি হিউরিস্টিক নিয়ম প্রয়োজন - অর্থাত দু'জন বা আরও বেশি প্রার্থী বাছাই করা।

হতে পারে আপনি আপনার স্ট্রিংয়ের তালিকা থেকে "সর্বাধিক কেন্দ্রীয়" বাছাই করতে চান না, বরং এর পরিবর্তে একটি নিয়মিত এক্সপ্রেশন তৈরি করতে চান যা সমস্ত অ-বহিরঙ্গন স্ট্রিংয়ের সাধারণ প্যাটার্নটি ধারণ করে। এটি করার একটি উপায় হ'ল একটি স্ট্রিং সংশ্লেষ করা যা সমস্ত নন-আউটলেটারের স্ট্রিংগুলির সাথে সামঞ্জস্যপূর্ণ। আপনি ম্যাট্রিক্স থেকে প্রয়োজনীয় সম্পাদনার দূরত্বটি নিয়ে কাজ করতে পারেন এবং তারপরে আপনি এলোমেলোভাবে এই দূরত্বগুলি সীমাবদ্ধতা হিসাবে ব্যবহার করে নিয়মিত উত্পাদন করতে চান। তারপরে আপনি প্রার্থীদের নিয়মিত ভাব প্রকাশ করতে এবং প্রথমটিকে স্বীকার করেন যা সীমাবদ্ধতার সাথে খাপ খায় এবং আপনার অ-বহিরঙ্গন তালিকার সমস্ত স্ট্রিং গ্রহণ করে। (দীর্ঘতম সাধারণ সাবস্ট্রিং তালিকাগুলি থেকে নিয়মিত এক্সপ্রেশন তৈরি করা শুরু করুন কারণ সেগুলি নন-ওয়াইল্ডকার্ড অক্ষর))

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.