নমুনা আকার এবং মাত্রা সহ বিভিন্ন পরিসংখ্যান কৌশল (রিগ্রেশন, পিসিএ, ইত্যাদি) কীভাবে স্কেল করে?


10

পরিসংখ্যান কৌশলগুলির একটি সাধারণ সাধারণ টেবিল রয়েছে যা ব্যাখ্যা করে যে তারা কীভাবে নমুনার আকার এবং মাত্রা দিয়ে স্কেল করে? উদাহরণস্বরূপ, আমার এক বন্ধু আমাকে অন্য দিন জানিয়েছিল যে আকারের একটি মাত্রিক ডেটা কেবল তাত্ক্ষণিকভাবে গণনার সময় n * লগ (এন) হিসাবে যায়।

সুতরাং, উদাহরণস্বরূপ, যদি আমরা এক্স এর বিপরীতে Y কে পুনরায় প্রতিক্রিয়া করি যেখানে এক্স একটি দ্বিমাত্রিক পরিবর্তনশীল হয় তবে এটি ও (এন as 2 * ডি) হিসাবে যায়? নিউটন পদ্ধতির সাথে সংখ্যাসূচক ন্যূনতম স্কোয়ারের মাধ্যমে সঠিক গাউস-মার্কভ সমাধান সমাধানের মাধ্যমে সমাধানটি খুঁজতে চাইলে কীভাবে এটি স্কেল হবে? বা কেবল তাত্পর্যপূর্ণ পরীক্ষা ব্যবহার করে সমাধান পেয়ে যাচ্ছেন?

আমি অনুমান করি যে এখানে ভাল উত্তরের চেয়ে আমি উত্তরগুলির একটি ভাল উত্স চাই (যেমন একটি কাগজ যা বিভিন্ন পরিসংখ্যান কৌশলগুলির স্কেলিংয়ের সংক্ষিপ্তসার করে) এখানে ভাল উত্তর চাই। যেমন, বলুন, একটি তালিকায় একাধিক রিগ্রেশন, লজিস্টিক রিগ্রেশন, পিসিএ, কক্স আনুপাতিক ঝুঁকি রিগ্রেশন, কে-মানে ক্লাস্টারিং ইত্যাদির স্কেলিং অন্তর্ভুক্ত রয়েছে list


এটা একটা ভালো প্রশ্ন। প্রচুর পরিসংখ্যানের বই উচ্চ-মাত্রিক তথ্যের তাত্ত্বিক দিকগুলি সম্পর্কে কথা বলে না কম্পিউটারের দিকগুলি।
শ্যাডএলকার

অনেক ক্ষেত্রে, মূল সাহিত্য জটিলতা নিয়ে আলোচনা করবে। তবে প্রায়শই তাত্ত্বিক জটিলতা অকেজো। কুইকসোর্টে ও (এন ^ 2) এর সবচেয়ে খারাপ অবস্থা রয়েছে, তবে প্রায়শই দ্রুততম - হিপসোর্টের চেয়ে দ্রুত, যার মধ্যে ও (এন লগ এন) সবচেয়ে খারাপ কেস রয়েছে। আপনি যদি একটু গবেষণা করেন তবে আপনি অনেক অ্যালগরিদমের জটিলতা ফলাফলগুলি খুঁজে পাবেন - যদি জানা থাকে। যেমন পিসিএ হচ্ছে ও (এনডি ^ 3), কে-মানে ও (এনকিড) হওয়া ইত্যাদি
কোয়েট রয়েছে - অ্যানি-মৌসেস

উত্তর:


6

বেশিরভাগ দক্ষ (এবং তুচ্ছ নয়) স্ট্যাটিস্টিক অ্যালগরিদমগুলি প্রকৃতির পুনরাবৃত্ত হয় যাতে সবচেয়ে খারাপ ক্ষেত্রে বিশ্লেষণটি O()অপ্রাসঙ্গিক হয় কারণ সবচেয়ে খারাপ ক্ষেত্রে এটি 'রূপান্তর করতে ব্যর্থ হয়'।

তবুও, যখন আপনার প্রচুর ডেটা থাকে, এমনকি লিনিয়ার অ্যালগরিদম ( O(n)) ধীর হতে পারে এবং তারপরে আপনাকে স্বরলিপিটির পিছনে ধ্রুবক 'লুকানো' ফোকাস করা দরকার। উদাহরণস্বরূপ, একক ভেরিয়েন্টের বৈকল্পিক গণনা করণীয়ভাবে দুইবার ডেটা স্ক্যান করা হয় (একবারের গড়ের একটি অনুমান গণনা করার জন্য, এবং তারপরে একবার তারতম্যটি অনুমান করার জন্য)। তবে এটি একটি পাসেও করা যায়

পুনরুক্তিযোগ্য অ্যালগরিদমের জন্য, ডেটা ডাইমেনিয়ালিটির ফাংশন হিসাবে কনভার্জেন্স রেট এবং পরামিতিগুলির সংখ্যাটি আরও গুরুত্বপূর্ণ, এমন উপাদান যা সংহতিকে ব্যাপকভাবে প্রভাবিত করে। অনেকগুলি মডেল / অ্যালগোরিদম বেশ কয়েকটি প্যারামিটার বৃদ্ধি করে যা ভেরিয়েবলের সংখ্যার সাথে সূচকীয় (উদাহরণস্বরূপ স্প্লাইনস) থাকে যখন কিছু অন্যান্য রৈখিকভাবে বৃদ্ধি পায় (যেমন সমর্থন ভেক্টর মেশিন, এলোমেলো বন, ...)


আমি নিশ্চিত নই যে আমি এটির সাথে একমত: কোনও পরিসংখ্যানগত সমস্যার জন্য অ্যালগরিদম ডিজাইন করার সময় , প্রতিটি উদ্দীপনা ধাপের জটিলতায় অনেক উদ্বেগ চলে যায় (এবং সাধারণত একটি পাণ্ডুলিপিতে নথিভুক্ত হয়)। তবে আপনি যেমন উল্লেখ করেছেন, প্রায়শই সংক্ষিপ্ত করা এতটা সহজ নয় কারণ পুনরাবৃত্তি প্রতি একই জটিলতার সাথে দুটি অ্যালগরিদম প্রয়োজনীয় পুনরাবৃত্তির কারণে খুব আলাদাভাবে সম্পাদন করতে পারে। বলা হচ্ছে, এটি খুব বিরল যে প্রয়োজনের পুনরাবৃত্তির সংখ্যা দ্রুত গতিতে বেড়ে যায় O(log(n) )
ক্লিফ এবি

5

আপনি শিরোনামে রিগ্রেশন এবং পিসিএ উল্লেখ করেছেন এবং তাদের প্রত্যেকের জন্য একটি নির্দিষ্ট উত্তর রয়েছে।

লিনিয়ার রিগ্রেশন-এর অ্যাসিপটোটিক জটিলতা হ'ল হ্রাস পায় O (পি ^ 2 * এন) যদি এন> পি, যেখানে পি বৈশিষ্ট্যের সংখ্যা এবং এন পর্যবেক্ষণের সংখ্যা। কমপক্ষে স্কোয়ার রিগ্রেশন অপারেশনের গণ্য জটিলতায় আরও বিশদ ।

ভ্যানিলা পিসিএ হ'ল ও (পি ^ 2 * এন + পি ^ 3), উচ্চ-মাত্রিক ডেটার জন্য দ্রুততম পিসিএ অ্যালগরিদম হিসাবে । তবে খুব বড় ম্যাট্রিকের জন্য দ্রুত অ্যালগরিদম বিদ্যমান, সেই উত্তরে ব্যাখ্যা করা হয়েছে এবং বিশাল বৈশিষ্ট্যের জন্য সেরা পিসিএ অ্যালগরিদম?

তবে আমি মনে করি না যে কেউ এই বিষয়ে একটি একক আলোকিত পর্যালোচনা বা রেফারেন্স বা বই সংকলিত করেছেন। আমার অবসর সময়ের জন্য খারাপ প্রকল্প হতে পারে না ...


ধন্যবাদ, এটি খুব সহায়ক! যদি আপনি বিভিন্ন ভবিষ্যদ্বাণীপূর্ণ মডেলিং কৌশলগুলির জন্য সাহিত্য পর্যালোচনা করেন তবে আমি নিশ্চিত যে এটি অনেকটা রেফারেন্স হবে। বড় বড় এন বা বড় পি ক্ষেত্রে কোন অ্যালগরিদমগুলি ব্যবহার করা উচিত বা আরও সুনির্দিষ্ট গণনার জন্য তাদের মাঝারি মানের জন্য যেগুলি পৃথক করতে চান তাদের পক্ষে এটি খুব সহায়ক হবে। আরও কিছু অস্পষ্ট কৌশল কীভাবে স্কেল করে তা আপনি জানতে পেরেছেন? (কক্স আনুপাতিক ঝুঁকি রিগ্রেশন বা নিশ্চিতকরণকারী ফ্যাক্টর বিশ্লেষণের মতো)
ব্রিজবার্নার

দুর্ভাগ্যক্রমে না, তবে আমি যদি কখনও সেই পর্যালোচনা করি তবে আমি চেষ্টা করার চেষ্টা করব ব্যাপকতর। আমি কমপক্ষে আমার ক্ষেত্রে কক্স রিগ্রেশনকে "অস্পষ্ট" বলি।
শ্যাডট্যালকার

5

প্রকৃত সিমুলেশনগুলির সময়কালের উপর ভিত্তি করে আমি এই স্টাটা জার্নাল নিবন্ধে স্ট্যাটার জন্য যে কনফার্মেশনাল ফ্যাক্টর বিশ্লেষণ প্যাকেজটি তৈরি করেছি তার জন্য আমি খুব সীমিত আংশিক উত্তর দিয়েছি । কনফার্মেটরি ফ্যাক্টর বিশ্লেষণ সর্বাধিক সম্ভাবনা অনুমানের কৌশল হিসাবে প্রয়োগ করা হয়েছিল এবং আমি খুব সহজেই দেখতে পেলাম যে প্রতিটি মাত্রা (নমুনার আকার n, ভেরিয়েবলের pসংখ্যা, গুণকের সংখ্যা k) দিয়ে গণনার সময় কীভাবে বৃদ্ধি পেয়েছিল । এটি স্টাটা কীভাবে ডেটা সম্পর্কে চিন্তা করে তার উপর নির্ভর করে (সারিগুলির চেয়ে কলাম / পর্যবেক্ষণগুলি গণনা করতে অনুকূলিত হয়েছিল), তাই আমি পারফরম্যান্স পেয়েছিO(n^{0.68} (k+p)^{2.4})যেখানে ২.৪ হ'ল দ্রুততম ম্যাট্রিক্স ইনভার্সন অ্যাসিম্পটোটিকস (এবং নিশ্চিতকরণের কারণের বিশ্লেষণ পুনরাবৃত্তিমূলক সর্বোচ্চকরণের মধ্যে এর অনেক কিছুই নেই)। আমি পরবর্তীকালের জন্য কোনও রেফারেন্স দিইনি, তবে আমি মনে করি উইকিপিডিয়া থেকে এটি পেয়েছি ।

X'X108


2
গণিত ফর্ম্যাটিং ডেটা সায়েন্সে কাজ করে না? সত্যি? আমাদের এটি পেতে বলা উচিত হতে পারে।
স্টাসকে

সংখ্যাগত নির্ভুলতা সম্পর্কে ভাল পয়েন্ট।
শ্যাডটলকার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.