কোন পরিসংখ্যানগত শ্রেণিবিন্যাস অ্যালগরিদম ইনপুটগুলির অনুক্রমের জন্য সত্য / মিথ্যা পূর্বাভাস দিতে পারে?


15

ইনপুটগুলির একটি ক্রম দেওয়া, আমাকে এই ক্রমটির একটি নির্দিষ্ট পছন্দসই সম্পত্তি রয়েছে কিনা তা নির্ধারণ করতে হবে। সম্পত্তিটি কেবল সত্য বা মিথ্যা হতে পারে, এটি হল মাত্র দুটি সম্ভাব্য শ্রেণি যা একটি অনুক্রমের অন্তর্ভুক্ত।

ক্রম এবং সম্পত্তির মধ্যে সঠিক সম্পর্কটি অস্পষ্ট, তবে আমি বিশ্বাস করি এটি অত্যন্ত সামঞ্জস্যপূর্ণ এবং এটি পরিসংখ্যানগত শ্রেণিবিন্যাসের জন্য নিজেকে ধার দেওয়া উচিত। আমার কাছে শ্রেণিবদ্ধকে প্রশিক্ষণ দেওয়ার জন্য প্রচুর পরিমাণে মামলা রয়েছে, যদিও এটি কিছুটা গোলমাল হতে পারে, এই অনুভূতিতে যে সামান্য সম্ভাবনা রয়েছে যে এই প্রশিক্ষণ সংস্থায় একটি ক্রমটি ভুল শ্রেণি নির্ধারিত হয়েছে।

প্রশিক্ষণের ডেটা উদাহরণ:

Sequence 1: (7 5 21 3 3) -> true
Sequence 2: (21 7 5 1) -> true
Sequence 3: (12 21 7 5 11 1) -> false
Sequence 4: (21 5 7 1) -> false
...

মোটামুটি ভাষায়, সম্পত্তিটি অনুক্রমের মানগুলির সেট দ্বারা নির্ধারিত হয় (উদাহরণস্বরূপ "11" এর উপস্থিতি মানে সম্পত্তি প্রায় অবশ্যই মিথ্যা হবে), এবং মানগুলির ক্রম (যেমন "21 7 5 "সম্পত্তিটি সত্য হওয়ার সুযোগটি উল্লেখযোগ্যভাবে বৃদ্ধি করে)।

প্রশিক্ষণের পরে, আমার শ্রেণিবদ্ধটিকে আগের মতো একটি অদেখা অনুক্রম দিতে সক্ষম হওয়া উচিত (1 21 7 5 3), এবং সম্পত্তিটি সত্য কিনা তা তার আত্মবিশ্বাসের ফলাফল হওয়া উচিত। এই ধরণের ইনপুট / আউটপুট সহ শ্রেণিবদ্ধকে প্রশিক্ষণের জন্য কি কোনও সুপরিচিত অ্যালগরিদম রয়েছে?

আমি নিষ্পাপ বায়েশিয়ান শ্রেণিবদ্ধকারী হিসাবে বিবেচনা করেছি (যা সত্য যে অর্ডার গুরুত্ব দেয় তা সত্যই খাপ খাইয়ে নিতে পারে না, অন্তত ইনপুটগুলি স্বতন্ত্র এই ধারণাটি কঠোরভাবে ভেঙে না ফেলে)। আমি লুকানো মার্কভ মডেল পদ্ধতির তদন্তও করেছি, যা প্রয়োগযোগ্য বলে মনে হয় কারণ ইনপুট প্রতি এক আউটপুট পরিবর্তে কেবলমাত্র একটি একক আউটপুট উপলব্ধ। আমি কি থেকে বাতিল হলাম?


এক জোড়া অনুক্রমের মধ্যে দূরত্ব পরিমাপ করার উপায় কি আপনার আছে? সর্বনিম্ন এবং / বা সর্বোচ্চ সিকোয়েন্স দৈর্ঘ্য জানা যায়?
ক্রেগ রাইট

@ ক্রেইগ রাইট এমন কোনও প্রয়োগযোগ্য দূরত্বের পরিমাপ নেই যা আমি ভাবতে পারি। 12 এর অর্ডারে সর্বাধিক দৈর্ঘ্য এবং সর্বনিম্ন 4 প্রায় অনুমান করা যেতে পারে। এছাড়াও, প্রায় 30 টি স্বতন্ত্র মান রয়েছে (সেগুলি সীমাহীন প্রাকৃতিক নয়; কেবলমাত্র সম্ভাবনার যথেষ্ট ছোট সেট)
রোমান স্টারকভ

আপনার উল্লেখযোগ্য একাধিক প্রতিক্রিয়া ভেরিয়েবলগুলি কী কী? আমি আপনার সমস্যাটি পড়ছিলাম কারণ এটি একটি বাইনারি আউটপুট এবং সম্ভবত আপনি কেবল ডামি ভেরিয়েবলগুলি তৈরি করতে পারেন Var1.1, Var1.12, ..., Var12.12
বি_মিনার

@ বি_মিনার আমি এইচএমএম কীভাবে কাজ করে তা ভুল বুঝাবুঝি হতে পারে তবে মনে হচ্ছে এটি নীচের মত কাজ করে: আমি এটিকে আমার ইনপুট সিকোয়েন্সটি (অ্যাবসিডি) খাওয়াই এবং এটি একটি গোপন অনুক্রমের সাথে সবচেয়ে ভাল মেলে, যথা (একটি 'বি' সি 'ডি' ই ') )। আমি মনে করি না যে ডামি ভেরিয়েবলগুলি এর সমাধান করবে; পুরো ক্রমটির জন্য আমার একটি সত্য / মিথ্যা শ্রেণিবিন্যাস প্রয়োজন।
রোমান স্টারকভ

@ ক্রমিনস, এটি এইচএমএম কীভাবে কাজ করে তা পুরোপুরি নয়। একটি এইচএমএম একটি সম্ভাব্য প্রক্রিয়া। প্রদত্ত একটি ক্রম এবং একটি HMM এমsM , আপনি সম্ভাব্যতা গণনা করতে পারে হায় আউটপুট গুলি (গতিশীল প্রোগ্রামিং ব্যবহার করা; এগিয়ে অ্যালগরিদম)। এছাড়াও, প্রশিক্ষণের ক্রমগুলির একটি সেট দেওয়া, আপনি এইচএমএম এম খুঁজে পেতে পারেন যা সেই প্রশিক্ষণ সিকোয়েন্সগুলি তৈরির সর্বাধিক সম্ভাবনা রয়েছে (বাউম-ওয়েলচ অ্যালগরিদম ব্যবহার করে)। সুতরাং এইচএমএমগুলি এখানে চেষ্টা করার মতো কিছু হতে পারে। পূরণ করার জন্য কিছু বিশদ থাকবে। MsM
ডিডাব্লু

উত্তর:


10

আপনি নিষ্পাপ বায়েস শ্রেণিবদ্ধের মতো তবে দুর্বল অনুমানের সাথে মিল রেখে সম্ভাব্য পদ্ধতির চেষ্টা করতে পারেন। উদাহরণস্বরূপ, শক্তিশালী স্বাধীনতা অনুমানের পরিবর্তে একটি মার্কভ অনুমান করুন:

p(xc)=p(x0c)tp(xtxt1,c)

আপনার ক্লাস লেবেল,c আপনার ক্রম। আপনার দুটি শর্তাধীন বিতরণ अनुमान করতে হবে, একটি সি = 1 এর জন্য এবং একটি সি = 0 এর জন্যxc=1c=0

বেয়েসের নিয়ম অনুসারে:

p(c=1x)=p(xc=1)p(c=1)p(xc=1)p(c=1)+p(xc=0)p(c=0).

পি ( এক্স টি) জন্য কোন বিতরণ বেছে নেবেএরউপর নির্ভর করে আপনি ক্রমগুলি এবং আপনার কতটা ডেটা উপলব্ধ রয়েছে সে সম্পর্কে কোন অন্যান্য অনুমান করা যায়।p(xtxt1,c)

উদাহরণস্বরূপ, আপনি ব্যবহার করতে পারেন:

p(xtxt1,c)=π(xt,xt1,c)iπ(xi,xt1,c)

ভালো ডিস্ট্রিবিউশন সঙ্গে, যদি সেখানে 21 বিভিন্ন আপনার সিকোয়েন্স ঘটমান সংখ্যা, আপনি অনুমান করতে হবে পরামিতি π ( এক্স টি , এক্স টি , ) প্লাস 21 2 = 42 এর প্যারামিটারগুলি পি ( এক্স 0 | ) প্লাস 2 এর প্যারামিটারগুলি পি ( )21212=882π(xt,xt,c)212=42p(x0c)2p(c)

যদি আপনার মডেলের অনুমানগুলি পূরণ না করা হয় তবে এটি শ্রেণিবিন্যাসের পারফরম্যান্সের সাথে সরাসরি পরামিতিগুলিকে সূক্ষ্ম সুরতে সহায়তা করতে পারে, উদাহরণস্বরূপ গড় লগ-ক্ষতি হ্রাস করে

1#D(x,c)Dlogp(cx)

গ্রেডিয়েন্ট-ডেসেন্ট ব্যবহার করে।


(+1) আমি এটি পছন্দ করি। তবে, সমস্ত এর জন্য নির্ভরযোগ্য অনুমান পেতে p(xt|xt1,c)
কোনও ব্যক্তিকে বিপুল

যদি আপনি জড়িত বিতরণগুলি সম্পর্কে আরও অনুমান করতে পারেন তবে আপনি খুব কম প্যারামিটার নিয়ে দূরে সরে যেতে পারেন। যদি, উদাহরণস্বরূপ, আপনি জানতেন যে দ্বিপদী এবং E [ x tx t - 1 , c ] = x t - 1p(xtxt1,c)E[xtxt1,c]=xt1 , আপনি শুধুমাত্র দুটি প্যারামিটার অনুমান করতে হবে, প্রতিটি মানের জন্য একটি । অবশ্যই, আপনি যদি কোনও অনুমান করতে না পারেন এবং পর্যাপ্ত ডেটা না পেয়ে থাকেন, তবে আপনি করার মতো অনেক কিছুই নেই। ফ্রি লাঞ্চ নেই।c
লুকাস

6

আমি আপনাকে কিছু বৈশিষ্ট্য সংজ্ঞায়িত করার পরামর্শ দেব এবং তারপরে সেই বৈশিষ্ট্যগুলিতে প্রয়োগ করতে একটি মেশিন লার্নিং অ্যালগরিদম বেছে নিন।

বৈশিষ্ট্যগুলি: মূলত, প্রতিটি বৈশিষ্ট্য এমন কিছু হওয়া উচিত যা নির্দিষ্ট সিক্যুয়েন্স থেকে গণনা করা যেতে পারে এবং যে ক্রমটির সম্পত্তি আছে কিনা তা আপনার কাছে প্রাসঙ্গিক বলে মনে করেন। আপনার বর্ণনার উপর ভিত্তি করে আপনি নিম্নলিখিত বৈশিষ্ট্যগুলি বিবেচনা করতে পারেন:

  • ii(7 5 21 3 3)

  • (7 5 21 3 3)7 55 2121 33 3302302

  • "ট্রিগারের ব্যাগ।" আপনি ট্রিগারগুলিও বিবেচনা করতে পারেন যা মূল ক্রম থেকে পরপর তিনটি সংখ্যার একটি অনুচ্ছেদ। আপনি উপরের মত একই কাজ করতে পারেন।

d=30+302+303d ডাইমেনশনাল ফিচার ভেক্টরকে যা বৈশিষ্ট্যগুলির সংগ্রহ। আপনার কাছে এটি হয়ে গেলে আপনি আসল ক্রমগুলি ফেলে দিতে পারেন। উদাহরণস্বরূপ, আপনার প্রশিক্ষণ সেটটি ইনপুট / আউটপুট-জোড়াগুলির একগুচ্ছ হয়ে যায়, যেখানে ইনপুটটি বৈশিষ্ট্য ভেক্টর (আপনার প্রশিক্ষণ সেট থেকে কিছু ক্রম অনুসারে) হয় এবং আউটপুটটি বুলিয়ান হয় (নির্দেশ করে যে সেই ক্রমের সম্পত্তি ছিল কিনা) ।

ii কমপক্ষে একবার প্রদর্শিত হয়েছিলএটি আরও ভাল ফলাফল দিতে পারে বা নাও পারে। সাধারণভাবে, আপনি যে বৈশিষ্ট্যগুলি সর্বোত্তম ফলাফল দেয় তা নির্ধারণের জন্য আপনি ব্যবহার করতে পারেন এমন বৈশিষ্ট্যগুলির সেট নিয়ে পরীক্ষা করতে পারেন (উদাহরণস্বরূপ, আপনি "ট্রিগারের ব্যাগ" ফেলে দিতে পারেন; অথবা আপনি চেষ্টা করার জন্য আরও কিছু ধারণা নিয়ে আসতে পারেন) ।

d


আমি যে প্রথম প্রচেষ্টাটি বাস্তবে প্রয়োগ করেছি তা হল নিষ্পাপ বেয়েসিয়ান শ্রেণিবিন্যাস সহ একটি "ব্যাগের ট্রিগল"। ফলাফল উত্সাহজনক তবে দুর্দান্ত নয়। আমি ভেবেছিলাম এটির সাথে সম্পর্কিত হতে পারে যে ট্রিগারগুলি একেবারেই স্বতন্ত্র নয়: যদি আমার "1 2 3" থাকে তবে আমার "2 3 *" ট্রিগার হওয়ার খুব সম্ভাবনা রয়েছে। সম্ভবত আমার আরও কিছু সঠিক বৈশিষ্ট্য নিয়ে পরীক্ষা করা উচিত।
রোমান স্টারকভ 23

বিভিন্ন বৈশিষ্ট্য সেট এবং বিভিন্ন শেখার অ্যালগরিদম সহ উভয়ই আরও পরীক্ষা করা একটি ভাল ধারণা a এছাড়াও, আপনার সমস্যার বর্ণনার ভিত্তিতে, আপনি প্রতিটি পৃথক সংখ্যার উপস্থিতির জন্য বৈশিষ্ট্যগুলি যুক্ত করতে চাইতে পারেন (শব্দের ব্যাগ, কেবল ট্রিগ্রমের ব্যাগ নয়): আপনি যদি কেবল ট্রিগার ব্যবহার করেন, তবে আপনি মেশিন লার্নিং অ্যালগরিদম শিখতে আরও শক্ত করে তুলছেন "সিক্যুয়েন্সগুলিতে প্রায় 11 টির মতো সম্পত্তি অবশ্যই সম্পত্তি নেই" এর মতো তথ্যগুলির মধ্যে রয়েছে।
DW

2

আপনি কার্যকরভাবে যা করছেন তা হ'ল সময় সিরিজের অনুমান পরীক্ষা। এইচএমএমগুলি আপনার পক্ষে কাজ করবে, যদিও আপনাকে এগুলি আপনার বিশেষ ক্ষেত্রে মানিয়ে নিতে হবে।

সত্যি বলতে কী, আপনি যা সনাক্ত করার চেষ্টা করছেন তার গাণিতিক বিবরণ যদি কিছু না লিখে থাকেন তবে আপনি খুব বেশি দূরে যাবেন না। আপনি আমাদের কী ধরনের বৈশিষ্ট্যটি প্রত্যাশা করছেন তা সম্পর্কে আমাদের বলতে পারেন?


1
মেশিন লার্নিং আমাদের দেখিয়েছে যে আমরা কী সন্ধান করব সে সম্পর্কে কোনও ধারণা ছাড়াই আমরা খুব বেশি দূরে যেতে পারি।
বাইয়ার্জ

1

সিকোয়েন্সে সর্বাধিক দৈর্ঘ্যের 12 দেওয়া, তারপরে 12 ইনপুট এবং একটি আউটপুট সহ একটি নিউরাল নেটওয়ার্ক কাজ করতে পারে তবে আপনাকে প্রতিটি অনুক্রমের শেষটি জিরো বা কিছু জড় মান দিয়ে প্যাড করতে হবে।


1

আপনি কি বয়েশিয়ান নেটওয়ার্কগুলি ব্যবহার করার চেষ্টা করেছেন? এলোমেলো ভেরিয়েবলের সম্ভাবনাগুলি পৌঁছানোর জন্য যখন আমার একাধিক তথ্য (একবারে একসাথে আসা) ফিউজ করা দরকার তখন আমি এটিই প্রথম চিন্তা করি।

বায়েশিয়ান নেটওয়ার্কগুলি নিরীহ বায়েসের স্বাধীনতার ধারনাটির উপর নির্ভর করে না।

বিটিডাব্লু, লুকানো মার্কভ মডেলগুলি বয়েশিয়ান নেটওয়ার্কগুলির একটি বিশেষ ক্ষেত্রে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.