ন্যূনতম নিয়মিত প্রকাশটি কোনও এনপি-সম্পূর্ণ সমস্যা খুঁজে পাওয়া যায়?


43

আমি নিম্নলিখিত সমস্যাটি নিয়ে ভাবছি: আমি একটি নিয়মিত ভাব প্রকাশ করতে চাই যা নির্দিষ্ট স্ট্রিংগুলির সাথে মেলে (যেমন বৈধ ইমেল ঠিকানাগুলির জন্য) এবং অন্যের সাথে মেলে না (অবৈধ ইমেল ঠিকানা)।

ধরুন নিয়মিত প্রকাশের মাধ্যমে আমরা কিছু সংজ্ঞায়িত সীমাবদ্ধ রাষ্ট্রীয় মেশিনকে বোঝাতে চাইছি, আমি সঠিক পরিভাষাটির সাথে পরিচিত নই, তবে আসুন প্রকাশিত কিছু শ্রেণীর সাথে সম্মত হই।

ম্যানুয়ালি ভাবটি তৈরি করার পরিবর্তে, আমি এটিকে ইতিবাচক একটি সেট এবং নেতিবাচক উদাহরণগুলির একটি সেট দিতে চাই।

এটির পরে এমন একটি ভাব প্রকাশ করা উচিত যা + টির সাথে মিলে যায়, - প্রত্যাখ্যান করে এবং কিছুটা সংজ্ঞায়িত অর্থে ন্যূনতম হয় (অটোমেটার রাজ্যের সংখ্যা?)।

আমার প্রশ্নগুলি হ'ল:

  • এই সমস্যাটি কী বিবেচনা করা হয়েছে, কীভাবে এটি আরও কিছু দৃ concrete়ভাবে সংজ্ঞায়িত করা যেতে পারে এবং এটি দক্ষতার সাথে সমাধান করা যেতে পারে? আমরা কি বহুপক্ষীয় সময়ে এটি সমাধান করতে পারি? এটি কি এনপি সম্পূর্ণ, আমরা এটি কোনওভাবে অনুমান করতে পারি? কোন শ্রেণীর মত প্রকাশের জন্য এটি কাজ করবে? আমি পাঠ্যপুস্তক, নিবন্ধ বা এ জাতীয় বিষয়ে আলোচনা করে এমন কোনও পয়েন্টারের প্রশংসা করব।
  • এটি কি কোনওভাবেই কলমোগোরভ জটিলতার সাথে সম্পর্কিত?
  • এটি কি কোনওভাবেই শেখার সাথে সম্পর্কিত? যদি নিয়মিত প্রকাশটি আমার উদাহরণগুলির সাথে সামঞ্জস্যপূর্ণ হয় তবে এটি ন্যূনতম হওয়ার কারণে, আমরা কি এখনও অদেখা উদাহরণগুলিতে এর সাধারণীকরণ শক্তি সম্পর্কে কিছু বলতে পারি? ন্যূনতমতার জন্য কোন মাপদণ্ড এর জন্য আরও উপযুক্ত হবে? কোনটি আরও দক্ষ হবে? এর কি মেশিন লার্নিংয়ের সাথে কোনও সংযোগ আছে? আবার যে কোনও পয়েন্টার সহায়ক হবে ...

অগোছালো প্রশ্নের জন্য দুঃখিত ... এটি বের করার জন্য আমাকে সঠিক দিকে নির্দেশ করুন। ধন্যবাদ!


2
নীচের পৃষ্ঠাটি প্রশ্নের শিখার দিকটির সাথে খুব প্রাসঙ্গিক বলে মনে হচ্ছে: people.dsv.su.se/~henke/ML/MERLIN.html
Tsuyoshi Ito

1
… হয়তো বা না. মনে হচ্ছে ডিএফএ শেখার ক্ষেত্রে অনেকগুলি কাজ রয়েছে।
Tsuyoshi Ito

2
এই প্রশ্নটি সম্প্রতি কমিউনিটি ব্লগে আলোচিত হয়েছিল ।
অ্যারন স্টার্লিং

উত্তর:


39

OPTkkP=NP

শেখার প্রশ্নটি সম্পর্কে: কেয়ার্নস এবং ভ্যালিয়েন্ট প্রমাণ করেছে যে আপনি আরএসএকে একটি ডিএফএতে এনকোড করতে পারবেন। সুতরাং, এমনকি যদি লেবেলযুক্ত উদাহরণগুলি ইউনিফর্ম বিতরণ থেকে আসে তবে ভবিষ্যতের উদাহরণগুলিতে সাধারণীকরণ করতে সক্ষম হওয়া (এমনকি ইউনিফর্ম বিতরণ থেকে আসাও) আরএসএ ভেঙে দেবে। সুতরাং, আমরা মনে করি যে সবচেয়ে খারাপ ক্ষেত্রে, লেবেলযুক্ত উদাহরণ থাকা কোনও ডিএফএ (পিএসি মডেলের ক্ষেত্রে) শেখার ক্ষেত্রে সহায়তা করে না। এটি শেখার জন্য ক্লাসিক ক্রিপ্টোগ্রাফিক কঠোরতার ফলাফলগুলির মধ্যে একটি।

এই দু'টি বিষয়ই আমরা ওসামের রেজার উপপাদ্যটির কারণে জড়িত । এটি মূলত বলেছে যে যদি আমাদের নির্দিষ্ট শ্রেণীর কাছ থেকে ক্ষুদ্রতম অনুমানের সন্ধানের জন্য একটি পদ্ধতি থাকে যা একই শ্রেণীর অনুমান দ্বারা লেবেলযুক্ত একটি নমুনার সাথে সামঞ্জস্যপূর্ণ হয়, তবে আমরা পিএসি সেই শ্রেণিটি শিখতে পারি। সুতরাং, আরএসএর কঠোরতার ফলস্বরূপ, আমরা আশা করব যে ক্ষুদ্রতম সামঞ্জস্যপূর্ণ ডিএফএ সন্ধান করা সাধারণভাবে শক্ত হবে!

ইতিবাচক শিক্ষার ফলাফল যুক্ত করতে, অ্যাংগলিন দেখিয়েছেন যে আপনি নিজের উদাহরণ তৈরি করতে পারলে আপনি একটি ডিএফএ শিখতে পারেন, তবে এটি জিজ্ঞাসা করতে সক্ষম অতিরিক্ত শক্তি প্রয়োজন "আমার বর্তমান অনুমানটি সঠিক?" এটি ছিল শেখার ক্ষেত্রেও একটি চূড়ান্ত কাগজ।

আপনার অন্য প্রশ্নের জবাব দেওয়ার জন্য, এগুলি আসলেই কলমোগোরভ জটিলতার সাথে সম্পর্কিত, কারণ যখন ডিএফএর লক্ষ্যমাত্রার নীতিগত প্রতিনিধিত্ব কম থাকে তখন শেখার সমস্যাটি সহজ হয়


3
আপনি আমাকে আরও সাম্প্রতিক, শক্তিশালী ফলাফল দিয়ে মারধর করেছেন! আপনার পরে আরও ভাল উত্তর পোস্ট করা উচিত !! 1 !!
সোসোশি ইটো

ওহো দুঃখিত! আমি ডিএফএ শেখার জন্য যথেষ্ট সময় ব্যয় করেছি যে আমাকে এই সময়ে ঝাঁপিয়ে পড়তে হয়েছিল :)
লেভ রেইজিন

1
সেক্ষেত্রে আমি আমার আগের মন্তব্যে মজা করছি। অবশ্যই এর থেকে আরও ভাল উত্তর পেয়ে আমি খুশি!
Tsuyoshi Ito

1
সুতরাং অন্য কথায়, এই সমস্যাটির মধ্যে প্রধান পার্থক্য এবং ডিএফএগুলির নিয়মিত হ্রাসকরণ নেতিবাচক উদাহরণগুলির উপস্থিতি, হ্যাঁ?
সুরেশ ভেঙ্কট

1
আমি বুঝতে পারছি না নেতিবাচক উদাহরণ ছাড়াই, ক্ষুদ্রতম সামঞ্জস্যপূর্ণ ডিএফএর মাত্র 1 রাষ্ট্র রয়েছে - স্বীকৃতি রাষ্ট্র যা নিজের দিকে নির্দেশ করে ...
লেভ রেইজিন

13

আমি প্রশ্নের শিখন-সম্পর্কিত দিকগুলির উত্তর দিই।

এই সমস্যাটিকে সাহিত্যে "ডিএফএ শেখার" বলা হয় বলে মনে হয়।

সোনার [গোল ]78] দেখিয়েছে যে কে- ডি এবং দুটি সসীম সেট পি এবং এন দিয়ে দেওয়া সিদ্ধান্ত নেওয়ার জন্য সম্পূর্ণ এনপি-সম্পূর্ণ , সেখানে বেশিরভাগ কে -রাজ্যে একটি ডিস্ট্রিমেন্টিক সসীম-রাষ্ট্র অটোমেটনের (ডিএফএ) উপস্থিত রয়েছে যা প্রতিটি স্ট্রিংকে স্বীকার করে পি এবং এন এর স্ট্রিংগুলির কোনওটিই নয় । [পিএইচ ০১] কাগজটি এই অনুপ্রেরণার সাথে সম্পর্কিত সমস্যাগুলি নিয়ে আলোচনা করেছে বলে মনে হচ্ছে (আরও অনেক কিছু থাকতে পারে; যখন আমি গুগলের সাথে প্রাসঙ্গিক কাগজগুলি সন্ধান করার চেষ্টা করেছি তখনই এটি প্রকাশিত হয়েছিল)।

তথ্যসূত্র

[গোল 78] ই মার্ক সোনার। প্রদত্ত ডেটা থেকে অটোমেটন শনাক্তকরণের জটিলতা। তথ্য এবং নিয়ন্ত্রণ , 37 (3): 302–320, জুন 1978. http://dx.doi.org/10.1016/S0019-9958(78)90562-4

[PH01] রাজেশ পেরেক এবং বসন্ত হানাভার। সাধারণ উদাহরণ থেকে ডিএফএ শেখা। মেশিন লার্নিং , 44 (1–2): 9–35, জুলাই 2001 http: // dfa.pdf


1
প্রতিক্রিয়াটির জন্য ধন্যবাদ, আমি রেফারেন্সগুলি দেখছি। আমি কি এই সাইটে একাধিক সেরা উত্তর দিতে পারি? :) আবার আমি বিব্রত বোধ করছি যে আমি বছরের পর বছর ধরে মেশিন লার্নিং অধ্যয়ন করেও পুরো "ডিএফএ লার্নিং" সাবফিল্ডটি মিস করেছি।
László Kozma

@ স্টিভ: আপনি কেবল একটি উত্তর গ্রহণ করতে পারেন তবে আপনি যতটা উত্তর দিতে চান ভোট দিতে পারেন।
Jukka Suomela

2
নোট করুন [সোনার 7878] আরও জানিয়েছে যে ডিএফএ বহুবর্ষীয় সময়ে (সীমাতে চিহ্নিতকরণের শিখার কাঠামোর ভিতরে) শেখা যায়। ব্যাকরণ সংক্রান্ত অনুচ্ছেদে সাম্প্রতিক বইটিও দেখুন ( pagesperso.lina.univ-nantes.fr/~cdlh/book_webpage.html ) একটি সংক্ষিপ্তসার জন্য।
mogle

@ এমগল: অতিরিক্ত তথ্যের জন্য আপনাকে ধন্যবাদ।
Tsuyoshi Ito

8

এই পুরো আলোচনার মধ্যে ধরেই ধরে নেওয়া হয়েছে যে, একটি ন্যূনতম নিয়মিত অভিব্যক্তি খুঁজে পাওয়া ভাষা স্বীকৃতি দেওয়ার জন্য একটি ন্যূনতম এফএসএম সন্ধান করার সমতুল্য, তবে এগুলি দুটি ভিন্ন জিনিস। যদি আমি সঠিকভাবে মনে রাখি তবে একটি ডিএফএ বহুপক্ষীয় সময়ে হ্রাস করা যায়, অন্যদিকে একটি ন্যূনতম নিয়মিত অভিব্যক্তি পাওয়া যা নির্দিষ্ট নিয়মিত ভাষার প্রতিনিধিত্ব করে তা পিএসপিএসিই-হার্ড। দ্বিতীয়টি সেই ফলাফলগুলির মধ্যে একটি যা অটোমাতা থিওরির লোককাহিনীর সাথে সম্পর্কিত তবে এর প্রমাণ কোথাও খুঁজে পাওয়া যায় না। আমি মনে করি এটি পাপাদিমিট্রোর বইয়ের অনুশীলন হিসাবে বর্ণনা করা হয়েছে।


1
এটি সঠিক যে নিয়মিত প্রকাশের দৈর্ঘ্য এবং ডিএফএ-র রাজ্যের সংখ্যা বিভিন্ন উদ্দেশ্যমূলক কাজ objective আমি ডিএফএ হ্রাসকরণ সম্পর্কে উত্তর দিয়েছি কারণ এর একটি দুর্দান্ত সম্পত্তি রয়েছে (উদাহরণস্বরূপ, সর্বনিম্ন সংখ্যক রাজ্যের সংখ্যার সাথে একটি অনন্য ডিএফএ রয়েছে) এবং প্রশ্নটি যেভাবে বলা হয়েছিল সেখান থেকে আমি ধারণা পেয়েছিলাম যে সঠিক উদ্দেশ্য কার্যটি নমনীয়।
Tsuyoshi Ito

এলোমেলো মন্তব্য: এফ এফ (এন) এর একটি নিয়মিত এক্সপ্রেশনটি আকারের এনএফএ দ্বারা অনুকরণ করা যায় এই সত্যটি প্রদত্ত (এফ (এন)), নিয়মিত প্রকাশগুলি হ্রাস করা আরও বেশি এনএফএ হ্রাস করার মতো, যা স্পষ্টতই শক্ত।
হিসিয়েন-চিহ চাং 之 之

এর কিছু মন্তব্য @
কিথের

2

এই স্ট্যাক ওভারফ্লো পোস্টটিও দেখুন আপনি যে বইটির সন্ধান করছেন সেটি মাইকেল সিপসারের থিওরি অফ গণনার পরিচিতি বলে মনে হচ্ছে ।

আপনি বেশ কয়েকটি পৃথক প্রশ্ন জিজ্ঞাসা করছেন, তাই একবারে এগুলি একটি করে নিন:

Is finding a minimal Finite State Machine for a language L NP-complete?

না এটা না। স্ট্যাক ওভারফ্লো পোস্ট কোনও এফএসএমকে তার ন্যূনতম আকারে হ্রাস করার জন্য একটি নির্দোষ এন ^ 2 অ্যালগরিদম নিয়ে আলোচনা করে। (স্টপ রাজ্যগুলি থেকে পিছিয়ে কাজ করা, একটি সূক্ষ্ম অর্থে "অভিন্ন" রাষ্ট্রগুলি একত্রিত করুন))

স্পষ্টতই (আমি লিঙ্কটি অনুসরণ করি নি), এটি করার জন্য একটি এন লগ এন অ্যালগরিদম রয়েছে।

I have a training set of strings, how do I find the minimal FSM 
that separates the good examples from the bad?

আপনি যেমনটি উচ্চারণ করেছেন, আপনার প্রশিক্ষণ সেটটি একটি সীমাবদ্ধ ভাষার বর্ণনা দেয় । সীমাবদ্ধ ভাষাগুলি তুচ্ছভাবে এফএসএম-এ ম্যাপ করে - আপনার ভাষার প্রতিটি স্ট্রিংয়ের জন্য স্টপ স্টেটে শেষ হওয়া রাজ্যের একটি রৈখিক সেট তৈরি করুন, কোনও লুপিংয়ের প্রয়োজন নেই। তারপরে, ফলস্বরূপ মেশিনে এফএসএম মিনিমাইজেশন অ্যালগরিদম চালান।

Is this a good way to build a classifier?

আমি তাই বলব না। এফএসএম হ্রাস করা তার বৈষম্যমূলক শক্তি পরিবর্তন করে না - এটাই বিন্দু of ন্যূনতম এফএসএম হুবহু স্ট্রিংয়ের সেটটিকে কোনও সমতুল্য নন-ন্যূনতম এফএসএম হিসাবে গ্রহণ করে।

সাধারণভাবে, নিয়মিত প্রকাশগুলি উপন্যাসের ডেটা শ্রেণিবদ্ধ করার জন্য অসমর্থিত। যে কোনও সীমাবদ্ধ প্রশিক্ষণের জন্য, আপনি একটি আরই / এফএসএম পাবেন যা সেটে কেবলমাত্র ইতিবাচক উদাহরণগুলির সাথে মেলে, নতুন ডেটাতে সাধারণীকরণের কোনও ক্ষমতা ছাড়াই। আমি এমন দৃষ্টিভঙ্গি কখনও দেখিনি যা কিছু প্রশিক্ষণ কর্পাসের সাথে মেলে এমন একটি অনন্ত নিয়মিত ভাষা সন্ধান করার চেষ্টা করে।

মেশিন লার্নিংয়ের জন্য, আপনি একটি নিষ্পাপ বায়েস শ্রেণিবদ্ধ, সিদ্ধান্ত গাছ, নিউরাল নেটওয়ার্ক বা আরও কিছু বিদেশী জাতীয় কিছু খুঁজছেন। রাসেল এবং নরভিগের কৃত্রিম বুদ্ধিমত্তা: মেশিন শেখার কৌশলগুলির সংক্ষিপ্তসার (এবং আরও অনেক কিছু।) অনুসন্ধানের জন্য একটি আধুনিক পদ্ধতির জায়গা যতই ভাল is


2
আমি এই উত্তরের সাথে একমত নই যদি আপনি কেবল সমস্ত ইতিবাচক উদাহরণ গ্রহণ করেন এবং এমন একটি FSM নির্মাণ করেন যা কেবলমাত্র সেই উদাহরণগুলি গ্রহণ করে এবং অন্য কিছুই না, আপনার এফএসএম বিশাল হতে পারে। অন্যদিকে, ক্ষুদ্রতম এফএসএম যা সমস্ত ইতিবাচক উদাহরণ গ্রহণ করে এবং কোনও নেতিবাচক উদাহরণ খুব ছোট হতে পারে ।
জুলকা সুমেলা 21

3
আমি মনে করি যে আসল প্রশ্নটি এটি বেশ পরিষ্কার করে দিয়েছে: "একটি অভিব্যক্তি যা + টির সাথে মিলে যায় - যা প্রত্যাখ্যান করে এবং কিছুটা সংজ্ঞায়িত অর্থে ন্যূনতম হয়"।
জুক্কা সুমেলা 21

5
@ আপনার উত্তর এবং আমার মধ্যে পার্থক্যটি বেশ সূক্ষ্ম। যখন আপনি আপনার ডিএফএ তৈরি করেন, নমুনায় প্রতিটি স্ট্রিংয়ের জন্য নতুন রাজ্য তৈরি করে, আপনি ন্যূনতম ডিএফএ দ্বারা প্রতিনিধিত্ব করা ভাষাটির চেয়ে একটি পৃথক ভাষাতে নিজেকে ইতিবাচক এবং নেতিবাচক উদাহরণগুলি পৃথক করে প্রতিশ্রুতিবদ্ধ হন। সুতরাং একটি ডিএফএ তৈরির জন্য অ্যালগরিদম এবং তারপরে এটি হ্রাস করুন দুর্ভাগ্যবশত এটি করে না!
লেভ রেইজিন

1
আমি নিশ্চিত না যে আমি এই পার্থক্যটি বুঝতে পেরেছি। যদি আমাদের কাছে ইতিবাচক এবং নেতিবাচক উদাহরণগুলির সেট থাকে, তবে আমাদের কাছে ভাষার একটি পরিবার রয়েছে যা সকলেই এই সীমাবদ্ধতাগুলি মেটায়। প্রতিটি জন্য একটি (সেট) ন্যূনতম dfas আছে। যতক্ষণ না আমি কোনও ডিএফএ ফিরিয়ে দিচ্ছি যে এটি সর্বনিম্ন আকার, আমি এই ভাষাগুলির মধ্যে কোনটি বেছে নেওয়ার বিষয়টি কীভাবে গুরুত্বপূর্ণ।
সুরেশ ভেঙ্কট

1
শেখার জন্য, আপনি সবচেয়ে ছোট ডিএফএ বাছাই করতে চান কারণ এটির মধ্যে সর্বোত্তম সাধারণকরণের ক্ষমতা রয়েছে। @ কিথের পদ্ধতিটি এই সমস্ত ভাষার চেয়ে মিনিমিয়াম ডিএফএ বাছাই করবে না, তার পদ্ধতিটি ব্যবহারের জন্য প্রতিশ্রুতিবদ্ধ ভাষার জন্য কেবলমাত্র ক্ষুদ্রতম।
লেভ রেইজিন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.