ঘন ঘন নিদর্শন খননে এখনও এফপিগ্রোথকে "শিল্পের রাজ্য" হিসাবে বিবেচনা করা হয়?


12

যতদূর আমি ঘন ঘন প্যাটার্ন মাইনিং (এফপিএম) সমস্যা সমাধানের জন্য অ্যালগরিদমগুলির বিকাশ জানি, উন্নতির রাস্তায় কয়েকটি প্রধান চেকপয়েন্ট রয়েছে। প্রথমত, এগ্রিওরি অ্যালগরিদম 1993 সালে অগ্রওয়াল এট আল দ্বারা প্রস্তাবিত হয়েছিল সমস্যাটির আনুষ্ঠানিককরণের পাশাপাশি। অ্যালগরিদম ডেটা বজায় রাখার জন্য একটি ল্যাটিস ব্যবহার করে সেটগুলি (পাওয়ারসেট) থেকে কিছু সেট স্ট্রিপ-অফ করতে সক্ষম হয়েছিল 2^n - 1। পদ্ধতির একটি অপূর্ণতা প্রসারিত প্রতিটি সেটের ফ্রিকোয়েন্সি গণনা করার জন্য ডাটাবেসটি পুনরায় পড়ার প্রয়োজন ছিল।

পরে, 1997 সালে, জাকি এট আল। এলগরিদম একলাট প্রস্তাব করেছিলেন , যা জালির ভিতরে প্রতিটি সেটের ফলস্বরূপ ফ্রিকোয়েন্সি সন্নিবেশ করিয়েছিল। এটি ল্যাটিসের প্রতিটি নোডে, লেনদেন-আইডির সেট যুক্ত করে যা করা হয়েছিল যার মূল থেকে নোডের আইটেম ছিল। প্রধান অবদান হ'ল প্রতিটি সেটের ফ্রিকোয়েন্সি জানতে পুরো ডেটাसेटকে পুনরায় পড়তে হবে না, তবে এই জাতীয় ডেটা কাঠামোটি তৈরি করতে প্রয়োজনীয় মেমরিটি নিজেই ডেটাসেটের আকারের চেয়ে বেশি হতে পারে।

2000 সালে, হান এট আল। এফপিগ্রোথ নামে একটি উপসর্গ-গাছের ডেটা কাঠামো সহ এফপিগ্রোথ নামে একটি অ্যালগরিদম প্রস্তাবিত । অ্যালগরিদম উল্লেখযোগ্য ডেটা সংক্ষেপণ সরবরাহ করতে সক্ষম হয়েছিল, এবং কেবলমাত্র ঘন ঘন আইটেমসেট প্রাপ্ত হবে (প্রার্থী আইটেমসেট জেনারেশন ব্যতীত) প্রদান করে। এটি প্রতিটি লেনদেনের আইটেমগুলি হ্রাসমান ক্রমে বাছাইয়ের মাধ্যমে করা হয়েছিল, যাতে ঘন ঘন আইটেমগুলি গাছের ডেটা কাঠামোর মধ্যে সর্বনিম্ন পুনরাবৃত্তিগুলি থাকে। যেহেতু ফ্রিকোয়েন্সি শুধুমাত্র যখন গভীর গাছ ঢোঁড়ন নেমে অ্যালগরিদম করতে সক্ষম হয় স্ট্রিপ বন্ধ অ ঘন itemsets।

সম্পাদনা করুন :

আমি যতদূর জানি, এটি একটি অত্যাধুনিক অ্যালগরিদম হিসাবে বিবেচিত হতে পারে তবে আমি প্রস্তাবিত অন্যান্য সমাধানগুলি সম্পর্কে জানতে চাই। এফপিএম এর জন্য অন্য কোন অ্যালগরিদমকে "স্টেট অফ দ্য আর্ট" হিসাবে বিবেচনা করা হয়? কি স্বজ্ঞা / প্রধান-অবদান যেমন আলগোরিদিম?

এফপিগ্রোথ অ্যালগরিদম এখনও ঘন ঘন নিদর্শন খনির ক্ষেত্রে "শিল্পের রাজ্য" হিসাবে বিবেচিত হয়? যদি তা না হয় তবে কোন অ্যালগরিদম (গুলি) বড় ডেটাসেট থেকে আরও দক্ষতার সাথে ঘন ঘন আইটেমসেটগুলি বের করতে পারে?


এই পোস্টটি গবেষণা এবং ভাল উপস্থাপন করা হয়েছিল। এটি একটি এসই নেটওয়ার্ক সাইটের জন্য একটি দুর্বল প্রশ্ন তোলে তবে এটি একটি আলোচনার ফোরামে শুরু করা দুর্দান্ত বিষয় হবে।
এয়ার

@ এয়ার থমাস সতর্কতার জন্য ধন্যবাদ। আমি পোস্টটি থেকে যথাযথ প্রশ্ন করে সেভ করার চেষ্টা করেছি।
রুবেন্স

উত্তর:


9

শিল্প যেমনটি রয়েছে: অনুশীলনে ব্যবহৃত হয়েছে বা তত্ত্বের ক্ষেত্রে কাজ করেছেন?

নতুন ঘন আইটেমসেট অ্যালগরিদম বিকাশ ব্যতীত এপ্রিওরি সর্বত্র ব্যবহৃত হয়। এটি কার্যকর করা সহজ এবং খুব আলাদা ডোমেনে পুনরায় ব্যবহার করা সহজ। আপনি বিবিধ মানের শত শত এপ্রিওরি বাস্তবায়ন খুঁজে পাবেন। এবং আসলে এপ্রিওরি ভুল হওয়া সহজ।

এফপিগ্রোথ বাস্তবায়ন করা অনেক কঠিন, তবে আরও আকর্ষণীয়। সুতরাং একাডেমিক দৃষ্টিকোণ থেকে, প্রত্যেকে এফপিগ্রোথ উন্নত করার চেষ্টা করে - এপ্রিওআরআই-এর ভিত্তিতে কাজ গ্রহণ করা এখনই খুব কঠিন হয়ে যাবে।

আপনার যদি একটি ভাল বাস্তবায়ন হয় তবে প্রতিটি অ্যালগরিদমে এটি ভাল থাকে এবং এটি আমার মতে খারাপ পরিস্থিতি। একটি ভাল APRIORI বাস্তবায়ন হবে শুধুমাত্র ডাটাবেসের স্ক্যান করতে প্রয়োজন দৈর্ঘ্যের সমস্ত ঘন itemsets খুঁজে বার । বিশেষত যদি আপনার ডেটা মূল স্মৃতিতে ফিট করে তবে এটি সস্তা। এপ্রিওরিটিকে কী মারতে পারে তা হ'ল অনেকগুলি ঘন ঘন 2-আইটেমসেট (বিশেষত যখন আপনি ট্রি এবং অনুরূপ ত্বরণের প্রযুক্তি ব্যবহার করেন না)। এটি সংখ্যক ঘন ঘন আইটেমসেট সহ বড় ডেটাতে সেরা কাজ করে।

একলাট কলামগুলিতে কাজ করে; তবে এটি প্রতিটি কলামে আরও অনেক বার পড়তে হবে। এই কাজটি হ্রাস করার জন্য ডিফসেটগুলিতে কিছু কাজ রয়েছে। যদি আপনার ডেটা মেমরির সাথে খাপ খায় না, তবে এ্যাকলেট সম্ভবত এপ্রিওরির চেয়ে বেশি ভোগেন। প্রথমে গভীরতার দিকে যাওয়ার পরে, এটি এপ্রিওরির থেকে অনেক আগে প্রথম আকর্ষণীয় ফলাফলটি ফিরিয়ে দিতে সক্ষম হবে এবং আপনি এই ফলাফলগুলি প্যারামিটারগুলি সামঞ্জস্য করতে ব্যবহার করতে পারেন; সুতরাং ভাল পরামিতিগুলি খুঁজতে আপনার কম পুনরাবৃত্তি প্রয়োজন। তবে ডিজাইনের মাধ্যমে, এটি অ্যাপ্রিওরির মতো সুন্দরভাবে ছাঁটাইকে কাজে লাগাতে পারে না।

এফপিগ্রোথ গাছের মধ্যে থাকা ডেটা সংকুচিত করে। আপনার যখন প্রচুর নকল রেকর্ড থাকে তখন এটি সবচেয়ে ভাল কাজ করে। আপনি খুব সহজেই এপ্রিওরি এবং একলাটের জন্য কিছুটা লাভ করতে পারেন যদি আপনি নিজের ডেটা প্রিসট করতে এবং ডুপ্লিকেটগুলি ওয়েট ভেক্টরগুলিতে মার্জ করতে পারেন। এফপিগ্রোথ চরম স্তরে এটি করে। অসুবিধাটি হ'ল বাস্তবায়নটি আরও শক্ত; এবং একবার এই গাছ আর স্মৃতিতে মাপসই করা হয় না এটি বাস্তবায়নে গোলমাল।

পারফরম্যান্স ফলাফল এবং মানদণ্ড হিসাবে - তাদের বিশ্বাস করবেন না। ভুলভাবে কার্যকর করার জন্য অনেক কিছুই রয়েছে। 10 টি আলাদা বাস্তবায়ন চেষ্টা করে দেখুন এবং আপনি 10 টি খুব আলাদা পারফরম্যান্স ফলাফল পাবেন। বিশেষত এপ্রিওরির জন্য, আমার ধারণা আছে যে বেশিরভাগ বাস্তবায়নগুলি এপ্রিওরির মূল অবদানের কিছু অনুপস্থিত অর্থে ভাঙা হয়েছে ... এবং যাদের এই অংশগুলি সঠিক রয়েছে তাদের মধ্যে অপ্টিমাইজেশনের গুণমান অনেক আলাদা হয়।

কীভাবে এই অ্যালগরিদমগুলি দক্ষতার সাথে প্রয়োগ করতে হবে সে সম্পর্কে আসলে কাগজপত্র রয়েছে:

এপ্রিওরি এবং একলাটের কার্যকর বাস্তবায়ন। ঘন ঘন আইটেম সেট মাইনিং বাস্তবায়ন
ক্রিশ্চিয়ান বর্গল্ট
ওয়ার্কশপ (এফআইএমআই 2003, মেলবোর্ন, এফএল, মার্কিন যুক্তরাষ্ট্র)।

আপনি এই ডোমেনে এই সমীক্ষাগুলি পড়তেও পারেন:

  • গোয়েটালস, বার্ট "ঘন ঘন নিদর্শন খনির উপর জরিপ" " ইউনিভার্সিটি। হেলসিঙ্কির (2003)।

  • ফেরেঙ্ক বোডন, ঘন ঘন আইটেমেট মাইনিং সম্পর্কিত একটি সমীক্ষা, প্রযুক্তিগত প্রতিবেদন, বুদাপেস্ট প্রযুক্তি ও অর্থনীতি বিশ্ববিদ্যালয়, ২০০,,

  • ঘন ঘন আইটেম খনির
    ক্রিশ্চান বর্গল্ট
    উইলে আন্তঃশৃঙ্খলা পর্যালোচনা: ডেটা মাইনিং এবং নলেজ আবিষ্কার 2 (6): 437-456। 2012


2

আমি সাহিত্যে যে সাম্প্রতিক ঘন ঘন প্যাটার্ন পন্থাগুলি দেখেছি সেগুলির বেশিরভাগই এফপিগ্রোথকে অনুকূলকরণের উপর ভিত্তি করে। আমাকে স্বীকার করতে হবে, অনেক বছরে এফপিএম-এর সাহিত্যের মধ্যে আমি অনেক উন্নয়ন দেখিনি।

এই উইকিবুক এফপিগ্রোথের অনেকগুলি বৈকল্পিক হাইলাইট করে যা সেখানে রয়েছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.