শ্রেণিবিন্যাসের জন্য টি-এসএনই ব্যবহার করে হাইপারপ্রেমিটারগুলি নির্বাচন করা


13

আমি যে সুনির্দিষ্ট সমস্যার সাথে কাজ করি (একটি প্রতিযোগিতা) হিসাবে আমার কাছে ফোলওয়েং সেটিং রয়েছে: 21 টি বৈশিষ্ট্য ([0,1] এর উপরের সংখ্যাসূচক) এবং একটি বাইনারি আউটপুট। আমার প্রায় 100 কে সারি রয়েছে। সেটিংটি খুব শোরগোল বলে মনে হচ্ছে।

আমি এবং অন্যান্য অংশগ্রহণকারীরা কিছুক্ষণের জন্য ফিচার জেনারেশনটি প্রয়োগ করেন এবং টি-বিতরণ স্টোকাস্টিক প্রতিবেশী এম্বেডিং এই সেটিংটিতে বরং শক্তিশালী হিসাবে প্রমাণিত হয়েছিল।

আমি এই পোস্টটিতে হোঁচট খেয়েছি "কীভাবে কার্যকরভাবে টি-এসএনই ব্যবহার করবেন" তবে এখনও আমার শ্রেণিবদ্ধকরণের সেটিংয়ে হাইপারপ্যারামিটারগুলি কীভাবে সেরা চয়ন করা যায় তা নিয়ে আমি সত্যিই সিদ্ধান্ত নিতে পারি না।

থাম্বের কোনও বিধি রয়েছে (বৈশিষ্ট্যের সংখ্যা, এমবেডিংয়ের মাত্রা -> বিভ্রান্তির পছন্দ)?

আমি ঠিক এই মুহুর্তে অ্যাড-হক সেটিংস প্রয়োগ করি কারণ বিভিন্ন সেটিংস পুনরাবৃত্তি করতে খুব বেশি সময় লাগে। কোন মন্তব্য করার জন্য ধন্যবাদ।


এইটা একটা ভালো প্রশ্ন! আশা করি কেউ আমার উত্তরটিকে যথেষ্ট পরিমাণে কমবে তাই আপনি অন্য উত্তর পেয়ে যাবেন (এবং আমিও নতুন কিছু শিখি)।
usεr11852

উত্তর:


17

আমার ডেটাতে ক্লাস্টারগুলির উপস্থিতি সনাক্ত / মূল্যায়নের জন্য আমি নিয়মিত এসএনই ( ক্লাস্টারিং কৌশলগুলির পাশাপাশি - শেষ পর্যন্ত আরও কিছু ) ব্যবহার করি। দুর্ভাগ্যক্রমে আমার জ্ঞানের পক্ষে উত্পাদিত হ্রাস মাত্রা ডেটাসেটটি তাকিয়ে সঠিক বিভ্রান্তি বেছে নেওয়ার কোনও মানক উপায় নেই এবং তারপরে এটি যদি অর্থবোধক হয় তা নির্ধারণ করে। কিছু সাধারণ তথ্য আছে, যেমন। গুচ্ছগুলির মধ্যে দূরত্বগুলি বেশিরভাগ অর্থহীন, ছোট বিভ্রান্তির মানগুলি ছোট জমাট-জাতীয় কাঠামোকে উত্সাহ দেয় তবে এটি প্রায়।t

প্রতিটি পুনর্নির্মাণের সাথে যুক্ত ত্রুটির মান কী তা যাচাই করা একটি থাম্বের নিয়ম-এর একটি খুব রুক্ষ নিয়ম। θ θt-এসএনই মূল ডোমেনের ডেটাগুলির মধ্যে দূরত্বের বন্টন এবং হ্রাস মাত্রা ডোমেনে ডেটাগুলির মধ্যে দূরত্বের বিতরণের মধ্যে কুলব্যাক-লেবলার ডাইভারজেন্সগুলির যোগফলকে হ্রাস করার চেষ্টা করছে (আসলে টার্গেট বিতরণগুলি হ'ল বিতরণগুলি সম্ভাবনাগুলি যে কোনও বিন্দু তার প্রতিবেশী হিসাবে অন্য একটি পয়েন্ট বাছাই করবে তবে এগুলি দুটি পয়েন্টের মধ্যে দূরত্বের সাথে সরাসরি সমানুপাতিক)। এটি যুক্তিযুক্ত হতে পারে যে কেএল-ডাইভারেন্সের ছোট মানগুলি আরও ভাল ফলাফল দেখায়। এই ধারণাটি বাস্তবে খুব ভাল কাজ করে না তবে এটি তাত্ত্বিকভাবে বিভ্রান্তির মানগুলির কিছু পরিসীমা এবং অ্যালগরিদমের কিছু রানকে স্পষ্টত suboptimal বলে বাদ দিতে সহায়তা করবে। আমি ব্যাখ্যা করি যে কেন এই হিউরিস্টিক প্যানাসিয়া থেকে দূরে এবং এটি কীভাবে হালকাভাবে কার্যকর হতে পারে: দূরত্ব / সম্ভাব্যতা গণনা করতে গাউসিয়ানদের পরিবর্তনের ফলে জটিলতায় প্যারামিটার একচেটিয়াভাবে বৃদ্ধি পায়। অতএব আপনি সামগ্রিকভাবে বিভ্রান্তির পরামিতি বাড়ানোর সাথে সাথে আপনি পরম শর্ত এবং পরবর্তী কেএল-ডাইভারজেন্স মানগুলিতে আরও কম দূরত্ব পাবেন। তবুও যদি একই বিভ্রান্তিতে আপনার 20 রান থাকে এবং আপনি তাদের দেখতে না চান (চান না) আপনি সর্বদা ক্ষুদ্রতম পরিবর্তনশীলকে আশা করতে পারেন যে এটি আসল দূরত্বগুলি আরও সঠিকভাবে ধরে রাখবে hop একই জন্য যায় তবুও যদি একই বিভ্রান্তিতে আপনার 20 রান থাকে এবং আপনি তাদের দেখতে না চান (চান না) আপনি সর্বদা ক্ষুদ্রতম পরিবর্তনশীলকে আশা করতে পারেন যে এটি আসল দূরত্বগুলি আরও সঠিকভাবে ধরে রাখবে hop একই জন্য যায় তবুও যদি একই বিভ্রান্তিতে আপনার 20 রান থাকে এবং আপনি তাদের দেখতে না চান (চান না) আপনি সর্বদা ক্ষুদ্রতম পরিবর্তনশীলকে আশা করতে পারেন যে এটি আসল দূরত্বগুলি আরও সঠিকভাবে ধরে রাখবে hop একই জন্য যায়θ , বার্নস-হাটের সান্নিধ্যের জন্য অনুমানের পরামিতি, বিভ্রান্তিটি পরিবর্তন স্থির করে ধরে নিয়েছে এবং তারপরে ফলাফলের পরীক্ষা করা কিছুটা তথ্যপূর্ণ হওয়া উচিত। দিনের শেষে, কম ব্যয় আরও বিশ্বস্ত পুনর্গঠনের সাথে জড়িত। যদিও সব হারিয়ে যায় না ...θ

আপনার নির্দিষ্ট ব্যবহারের ক্ষেত্রে, একটি ভাল বিভ্রান্তির মান বাছাইয়ের পদ্ধতিটি হালকাভাবে স্বয়ংক্রিয় করার একটি কৌশলটি নিম্নরূপ: হ্রাস মাত্রা ডেটাসেটের জন্য একটি ছোট ক্লাস্টারিং পদ্ধতি (একটি মায়ানস বা ডিবিএসসিএন বলুন ) চালান এবং তারপরে সেই ক্লাস্টারিংয়ের গুণমান নির্ধারণ করুন assess সূচক কিছু বাছাই (ব্যবহার কোহেন এর , রান্ড সূচক , Fowlkes-Mallows কি ভবিষ্যদ্বাণী করা চেষ্টা বিরুদ্ধে, ইত্যাদি)। এখানে ধারণাটি হ'ল আপনার কাজটির জন্য তথ্যের সঠিক উপস্থাপনের জন্য (বিভ্রান্তি নির্ভর এসএনই ফলাফল) সম্পত্তির সাথে তাদের সারিবদ্ধকরণের ক্ষেত্রে সর্বাধিক তথ্যবহুল প্রতিনিধিত্ব (উল্লিখিত মেট্রিকগুলির আকারে) দেওয়া উচিত আপনি ভবিষ্যদ্বাণী করার চেষ্টা করুন এই কারণেইk t tkktt- সর্বোপরি এসএনইই প্রথম স্থানে ব্যবহৃত হয়েছিল, ফলস্বরূপ উপস্থাপনাগুলি যদি আমরা তদন্ত করা সম্পত্তিগুলির জন্য যদি অজ্ঞাতসারে হয় তবে এটির কম পুনর্নির্মাণ ত্রুটি, ভিজ্যুয়াল আপিল ইত্যাদির পরেও এটি ভাল নয় is

আমাকে উল্লেখ করতে দিন যে আমি যা বর্ণনা করি তা হিউরিস্টিক্স । আমার পোস্টের শুরুতে যেমন উল্লেখ করা হয়েছে, ফলগুলি ম্যানুয়ালি পরীক্ষা করা ফলাফলের মাত্রিকতা হ্রাস / ক্লাস্টারিংয়ের গুণমান নির্ণয়ের একটি অপরিহার্য উপায়।


এই জন্য আপনাকে ধন্যবাদ. ক্লাস্টারিংটি শ্রেণিবিন্যাসের কতটা ফিট করে তা সূচকের ধারণা আকর্ষণীয় বলে মনে হয়।
রিক

4

আমরা সাধারণত ডেটাসেট আকারের 5% এ বিভ্রান্তি সেট করি। সুতরাং 100 কে সারি সহ একটি ডেটাসেটের জন্য আমি 5000 বা কমপক্ষে 1000 এর বিভ্রান্তি দিয়ে শুরু করব, যদি আপনার কাছে উচ্চতর পারফরম্যান্স কম্পিউটার না থাকে। আমাদের ডেটা সেটগুলি প্রবাহের সাইটোমেট্রি বিশ্লেষণ থেকে আসে, তাদের সাধারণত 10 থেকে 20 সংখ্যার মান সহ প্রতিটি 50k থেকে 500k ডেটা পয়েন্ট থাকে।


4

কায়ো এবং ওয়াংয়ের "টি-এসএনই পার্পলেক্সটির স্বয়ংক্রিয় নির্বাচন" দেখে নেওয়া আপনার পক্ষে আকর্ষণীয় হতে পারে :

টি-ডিস্ট্রিবিউটড স্টোকাস্টিক নেবার এম্বেডিং (টি-এসএনই) ডেটা ভিজুয়ালাইজেশনের জন্য বহুল ব্যবহৃত ব্যবহৃত মাত্রিকতা হ্রাস পদ্ধতিগুলির মধ্যে একটি তবে এটির মধ্যে একটি বিভ্রান্তি হাইপারপ্যারামিটার রয়েছে যার জন্য ম্যানুয়াল নির্বাচন প্রয়োজন। অনুশীলনে, টি-এসএনই বিড়ম্বনার যথাযথ সুরের ক্ষেত্রে ব্যবহারকারীরা পদ্ধতির অভ্যন্তরীণ কাজটি বুঝতে এবং পাশাপাশি অভিজ্ঞতা অর্জন করতে হবে। আমরা টি-এসএনই বিড়ম্বনার জন্য একটি মডেল নির্বাচনের লক্ষ্য প্রস্তাব করি যার জন্য টি-এসএনই এর চেয়ে অল্প অতিরিক্ত গণনা প্রয়োজন। আমরা দৃir়ভাবে যাচাই করেছি যে আমাদের পদ্ধতির দ্বারা প্রাপ্ত বিভ্রান্তিকর সেটিংস বিভিন্ন বিশেষজ্ঞের ডেটাসেট জুড়ে মানব বিশেষজ্ঞদের দ্বারা প্রাপ্ত পছন্দগুলির সাথে সামঞ্জস্যপূর্ণ। বায়েশিয়ান তথ্য মানদণ্ড (বিআইসি) এবং ন্যূনতম বিবরণ দৈর্ঘ্যের (এমডিএল) আমাদের পদ্ধতির মিলগুলিও বিশ্লেষণ করা হয়।


2
সিদ্ধান্তগুলি কী ছিল ..?
টিম

1
S(Perplex.)=2KL(P||Q)+log(n)Perlex.n (কিন্তু +1 টি টিম এর মন্তব্য, একটি কাগজ এর বিমূর্ত সম্পূর্ণ উত্তর থেকে অনেক দূরে; নির্মিত করার চেষ্টা করুন স্ব-ব্যাখ্যামূলক / অন্তর্ভুক্ত একটি উত্তর দিন up)
usεr11852
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.