কে-অর্থ: ব্যবহারিক পরিস্থিতিতে কতটি পুনরাবৃত্তি?


10

ডেটা মাইনিং বা বড় ডেটাতে আমার শিল্পের অভিজ্ঞতা নেই তাই আপনাকে কিছু অভিজ্ঞতা ভাগ করে নিতে শুনে ভালো লাগবে।

লোকেরা কি আসলেই বড়-বড় ডেটাসেটে কে-মানে, প্যাম, ক্লারা ইত্যাদি চালায়? অথবা তারা এলোমেলোভাবে এটি থেকে একটি নমুনা বাছাই করে? যদি তারা কেবল ডেটাসেটের একটি নমুনা নেন, তবে ডাটাসেটটি সাধারণত বিতরণ না করা হলে ফলাফল নির্ভরযোগ্য হবে?

ব্যবহারিক পরিস্থিতিতে যখন এই অ্যালগরিদমগুলি চালিত হয়, আমরা কি বলতে পারি যে একত্রীকরণ না হওয়া অবধি সাধারণত কতগুলি পুনরাবৃত্তি লাগবে? অথবা সবসময় ডেটা আকারের সাথে পুনরাবৃত্তির সংখ্যা বৃদ্ধি পায়?

আমি এটি জিজ্ঞাসা করছি কারণ আমি একীকরণের আগে পুনরাবৃত্ত অ্যালগরিদমগুলি বন্ধ করার জন্য একটি পদ্ধতির বিকাশের কথা ভাবছি, এবং ফলাফলগুলি এখনও গ্রহণযোগ্য। আমি মনে করি এটি যদি পুনরাবৃত্তির সংখ্যা হয় তবে এটি চেষ্টা করা সার্থক, 1000 টিরও বেশি বলুন, যাতে আমরা কিছু গণনা ব্যয় এবং সময় সাশ্রয় করতে পারি। আপনি কি মনে করেন?


number of iterations always grow with the data sizeঅগত্যা।
ttnphns

কে-উপায়ে পুনরাবৃত্তিগুলি বন্ধ করার জন্য বিভিন্ন মানদণ্ড বিদ্যমান। মজার বিষয় হল, কেবলমাত্র একটি নির্দিষ্ট মানকে পুনরাবৃত্তির সংখ্যা সেট করা (বলুন, 10 বা 20) যুক্তিসঙ্গত উপায়গুলির মধ্যে অন্যতম। কে-মানে একটি দ্রুত পদ্ধতি হিসাবে উত্সর্গীকৃত, অতএব আপনি যদি প্রতিটি পুনরাবৃত্তির পরে কনভার্জেন্সের মানদণ্ডটি পরীক্ষা করতে চান তবে মানদণ্ডটি সহজেই গণনা করা সহজ / দ্রুত হওয়া উচিত।
ttnphns

1
কার্যকর করার জন্য সর্বাধিক সংখ্যক পুনরাবৃত্তি নির্ধারণ করার জন্য কি কোনও "বৈজ্ঞানিক" উপায় আছে?
foo বিন্যাস

আপনার শেষ মন্তব্যটি একটি ভাল প্রশ্ন। সত্য, আমি জানি না। অন্য লোকেরা এর উত্তর দিতে পারে।
ttnphns

উত্তর:


6
  1. কে-মানে সস্তা। আপনি এটি অনেকের জন্য চালানোর সামর্থ্য করতে পারেন পুনরাবৃত্তির ।

  2. খারাপ অ্যালগরিদম (মানক এক) এবং ভাল অ্যালগরিদম রয়েছে। ভাল অ্যালগরিদমের জন্য, পরবর্তী পুনরাবৃত্তির জন্য প্রায়শই প্রথম পুনরাবৃত্তির 1% এর চেয়ে অনেক কম খরচ হয়।

  3. সত্যিই ধীর বাস্তবায়ন আছে। এগুলি ব্যবহার করবেন না।

  4. "বড়" ডেটার উপর কে-মানে উপস্থিত নেই। কারণ এটি কেবল নিম্ন মাত্রিক ভেক্টর ডেটাতে কাজ করে। আপনি এই জাতীয় ডেটা সহ একটি আধুনিক সার্ভারের স্মৃতি অতিক্রম করবেন না। হ্যাঁ, বৃহত্তর ডেটা বিদ্যমান - তবে আপনি এক মাসের টুইটার ডেটা বলে কে-মাধ্যম ব্যবহার করতে পারবেন না, কারণ এটি আপনাকে দরকারী কিছু দেবে না।

একটি ভাল বাস্তবায়নের সাথে, একটি আধুনিক সার্ভারে, আপনি খুঁজে পেতে পারেন সবচেয়ে বড় ডেটাসেট যেখানে আপনি কে-মানে এখনও কার্যকর ফলাফল দেয় সম্ভবত কনভার্জেশন পর্যন্ত গণনা করতে 1 মিনিটেরও কম সময় প্রয়োজন। তাহলে কেন পুনরাবৃত্তির সীমা সম্পর্কে চিন্তাভাবনা করছেন?


1
একমত। এই গবেষণাপত্রে ( স্কেলযোগ্য কে-মায়ানগুলি র‌্যাঙ্কড পুনরুদ্ধারের মাধ্যমে ), লেখকরা বলেছিলেন যে কে-মানে সমস্ত ব্যবহারিক পরিস্থিতিতে 20-50 পুনরাবৃত্তির পরে রূপান্তর করে, এমনকি উচ্চ মাত্রিক ডেটাসেটগুলিতেও যেমন তারা পরীক্ষা করে। সুতরাং কে-মানেগুলি বাদ দিয়ে, আপনি কি এমন কোনও অ্যালগোরিদম জানেন যা সংহত হওয়া অবধি বিপুল সংখ্যক পুনরাবৃত্তি গ্রহণ করে?
foo

হতে পারে একটি এসভিএম প্রশিক্ষণ? আমি বিশ্বাস করি যে এটি পুনরুক্তিযোগ্য, সর্বোত্তম (এবং সবচেয়ে ছোট, যেহেতু পূর্বাভাস এর উপর নির্ভর করে!) সমর্থন ভেক্টরগুলির সেট।
কিউইট আছে - অ্যানি-মৌসে

হাই ডাইমেনশন ডেটাসেটগুলিতে কে-মানে চালানোর সুস্পষ্ট সমাধান হ'ল প্রথমে পিসিএ বা অন্যান্য মাত্রিকতা হ্রাস পদ্ধতি চালানো, তারপরে কে-মানে চালানো
নিকো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.