কীভাবে ডাটাবেস সমষ্টিগুলি একঘেয়েমি তৈরি করে?


11

উপর cs.stackexchange আমি সম্পর্কে জিজ্ঞাসা algebird GitHub উপর Scala গ্রন্থাগার, কেন তারা একটি বিমূর্ত বীজগণিত প্যাকেজ প্রয়োজন হতে পারে নেভিগেশন speculating।

গিথুব পৃষ্ঠায় কিছু সূত্র রয়েছে:

আকর্ষণীয় আনুমানিক অ্যালগরিদমগুলির জন্য যেমন ব্লুম ফিল্টার, হাইপারলগলগ এবং কাউন্টমিন স্কেচ মনোয়েডগুলির বাস্তবায়ন। এগুলি আপনাকে পরিশীলিত পরিসংখ্যান এবং বিশ্লেষণগুলি তৈরি করতে হডুপ বা অনলাইনে এগুলি যুক্ত করার মতো এই পরিশীলিত অপারেশনগুলির কথা ভাবতে সহায়তা করে।

এবং গিটহাব পৃষ্ঠার অন্য একটি অংশে:

এটি মূলত স্কালডিংয়ের ম্যাট্রিক্স এপিআইয়ের অংশ হিসাবে বিকশিত হয়েছিল, যেখানে ম্যাট্রিকের মান ছিল যা মনোয়েড, গোষ্ঠী বা রিংয়ের উপাদান। পরবর্তীকালে, এটি স্পষ্ট ছিল যে কোডটি স্ক্যালডিংয়ের মধ্যে এবং টুইটারের মধ্যে অন্যান্য প্রকল্পগুলিতে বিস্তৃত প্রয়োগ করেছে।

এমনকি টুইটারের ওসকার বয়কিন এতে বাধা দিয়েছেন:

মূল উত্তরটি হ'ল আধা-গোষ্ঠী কাঠামোটি কাজে লাগিয়ে আমরা অন্তর্নিহিত ক্রিয়াকলাপটি না জেনে সঠিকভাবে সমান্তরালে এমন সিস্টেমগুলি তৈরি করতে পারি (ব্যবহারকারী সাহসিকতার প্রতিশ্রুতি দিচ্ছেন)।

মনোয়েডগুলি ব্যবহার করে আমরা স্পারসিটির সুবিধা নিতে পারি (আমরা প্রচুর স্পার্স ম্যাট্রিক্সের সাথে ডিল করি, যেখানে কিছু মনোয়েডে প্রায় সমস্ত মান একটি শূন্য)।

রিংগুলি ব্যবহার করে, আমরা সংখ্যা ব্যতীত অন্য কিছুগুলিতে ম্যাট্রিক্স গুণ করতে পারি (যা আমরা উপলক্ষে করেছি)।

বীজগণিত প্রকল্প নিজেই (পাশাপাশি ইস্যুর ইতিহাস) এখানে কী চলছে তা খুব স্পষ্টভাবে ব্যাখ্যা করে: আমরা বড় ডেটা সেটগুলি একত্রিত করার জন্য প্রচুর অ্যালগরিদম তৈরি করছি, এবং অপারেশনগুলির কাঠামোর উপকারিতা আমাদের সিস্টেমগুলির পক্ষে একটি জয় দেয় (নোডের বাকী অংশে অ্যালগরিদম উত্পাদন করার চেষ্টা করার সময় এটি সাধারণত ব্যথার বিষয়)।

যে কোনও সেমিগ্রুপ / মনোয়েড / গ্রুপ / রিংয়ের জন্য সিস্টেমগুলির সমস্যাগুলি একবার সমাধান করুন এবং তারপরে আপনি মেমকেচে, হাদুপ, ঝড় ইত্যাদি সম্পর্কে চিন্তা না করে কোনও অ্যালগরিদমে প্লাগ করতে পারেন ...

কেমন আছেন Bloom filters/ hyperloglog/ countminsketchসংখ্যার মত?

এটি কীভাবে ডাটাবেস সমষ্টিগুলির একঘেয়ে কাঠামো আছে?
এই মনোয়েড দেখতে কেমন? তাদের কি কখনও গ্রুপ কাঠামো আছে?

সাহিত্যের উল্লেখগুলি সহায়ক হবে।


এছাড়াও কেউ "সংক্ষিপ্ত ম্যাট্রিকগুলি যেখানে প্রায় সমস্ত মান একটি একক মধ্যে শূন্য" সংযোগটি স্কেচ করতে পারে?
vzn

ee0=e

n×n

@vzn, ম্যাট্রিক্সের ভিতরে কোনও উপাদান নেই।
নিকোলাস মানকুসো

উত্তর:


14

আপনি জিজ্ঞাসা করছেন কেন ডাটাবেস সমষ্টিগুলির একচেটিয়া কাঠামো রয়েছে।

ababa.b

.(a.b).c=a.(b.c)

প্রায় সবসময়ই কোনও না কোনও পরিচয় থাকে, এটি নম্বর 0 বা 1, খালি স্ট্রিং, একটি পরিচয় ম্যাট্রিক্স, ইউনিফর্ম বিতরণ বা খালি সেট যা অপারেশনের উপর নির্ভর করে। সুতরাং বাস্তবে ডেটা সাধারণত একটি মনোয়েড গঠন করে ।

মনোয়েড গঠনের জন্য ডেটা ভাবার বিষয়ে ব্যবহারিক বিষয়টি হ'ল এটি একটি সাধারণ বীজগণিত ভাষা ব্যবহার করে বিভিন্ন ধরণের ডেটাতে অপারেশন নিয়ে আলোচনা করার একটি উপায় সরবরাহ করে। এটি তখন জেনেরিক কোড লাইব্রেরিতে অনুবাদ করে যা কোনও মনোইয়েডকে মোকাবেলা করতে পারে, কেবল একটি যুক্তি হিসাবে উপযুক্ত একটিत्रीকরণ অপারেশনটি পাস করে।

নোট করুন যে অনেক ধরণের ডেটার বিপরীতে থাকে না, সুতরাং একটি গ্রুপ কাঠামো আশা করা খুব বেশি। আপনার যদি গোষ্ঠী কাঠামো থাকে তবে ডেটা ম্যানিপুলেট করার কয়েকটি অতিরিক্ত উপায় সম্ভব হয়ে ওঠে, তবে যেহেতু গুনীকরণের সাথে ম্যাট্রিক হয় না, বা ধনাত্মক সংখ্যার যোগও বিপরীত হয় না, অ-গ্রুপ-কাঠামোগত ডেটা বেশ সাধারণ।

+..+.

কিছুটা সময় সীমাবদ্ধতা সন্তুষ্ট সম্প্রদায়ের মধ্যে ডেটাগ্রহীতার একটি সেমিরিং মডেল প্রায় ছিল। মনে রাখবেন যে সীমাবদ্ধতা সন্তুষ্টির সমস্যা উদাহরণ হ'ল তথ্যগুলির একটি নির্দিষ্ট ডাটাবেসের তুলনায় সম্মিলিত ক্যোয়ারী, সুতরাং এটি বেশ সাধারণ: ডেটা সম্পর্কিত বেশিরভাগ ব্যবহারিক প্রশ্নগুলি সম্মিলিত।

  • স্টেফানো বিস্তারেলি, উগো মন্টানারি এবং ফ্রান্সেস্কা রসি, সেমিরিং-ভিত্তিক সীমাবদ্ধতা সন্তুষ্টি ও অপ্টিমাইজেশন , জ্যাকএইচ 44 (2), 1997, 201-2236। doi: 10.1145 / 256303.256306

তথ্য অ্যাগ্রিগেশন এর semiring মডেলের তাত্ত্বিক বিশ্লেষণ বর্তমান দৌড় 2007 সালে নাচ শুরু হয়েছিল, প্রেক্ষাপটে উত্স । প্রোভান্স্যান্স ডেটা টিকানোর জন্য অভিনব শব্দ। যেহেতু কোনও ডাটাবেস টিউপলকে কিছু অনন্য টিপল শনাক্তকারীকে টীকাগুলি হিসাবে প্রয়োগ করা দেখা যায়, তথ্যের একত্রিকরণ কেবল টীকাগুলির সংমিশ্রণ হিসাবে দেখা যায়। প্রোভেন্যান্স সুতরাং তথ্য একত্রিত করার ধারণার একটি সাধারণীকরণ, এবং এটি স্পষ্টতই যুক্তিযুক্ত যে মন্তব্যগুলির সাথে সম্মিলনের সঠিক তাত্ত্বিক মডেল একটি সেমিরিং। প্রোভেন্যান্স পলিনোমিয়ালগুলির সর্বাধিক সাধারণ সেমিরিং আসলে কোনও উপাদানকে কীভাবে উপাদানগুলির অংশ থেকে প্রাপ্ত করা হয়েছিল তা পুরো ইতিহাসের উপর নজর রাখতে দেয়। উদাহরণস্বরূপ, একটি পি-মানক্লিনিকাল পরীক্ষার বিশ্লেষণে এটি পৃথক পরীক্ষার ফলাফলগুলির প্রতিটি থেকে কীভাবে গণনা করা হয়েছিল তা ট্র্যাক রাখতে পারে। যদি তাদের মধ্যে কিছু ভুল হয়ে থাকে (বা জাল) তবে সহজেই খারাপ ডেটা ছাড়াই গণনা করা যায়।

  • টড জে গ্রিন, গ্রিগরিস কারভৌনারাকিস এবং ভ্যাল ট্যানেন, প্রোভেনেন্স সেমিরিংস, পোডস 2007, 31-40। doi: 10.1145 / 1265530.1265535

সমষ্টিগত তথ্য উপাত্তে সেমিরিং ব্যবহার করে আরও অনেক কাজ করা হয়েছে, এটির উদ্ধৃতি দিয়ে কাগজপত্র দেখুন ।

আপনি যে আরও তাত্ক্ষণিক ব্যবহারিক দৃষ্টিকোণটি উল্লেখ করেছেন তা থেকে উদাহরণস্বরূপ দেখুন যে কোনও ব্যক্তি কীভাবে কার্যকরভাবে অন্তর্নিহিত সেমিরিং অভিব্যক্তিটিকে যথাযথভাবে দলবদ্ধ করে একটি গণনার সমান্তরাল করতে পারেন।

  • শ্রীনিবাস এম। অজি এবং রবার্ট জে ম্যাকেলিস, সাধারণ বিতরণ আইন , তথ্য তত্ত্ব 46 (2), 2000, 325–343 সম্পর্কিত আইইইই লেনদেন । doi: 10.1109 / 18.825794
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.