প্রশ্ন ট্যাগ «large-data»

'বৃহত্তর ডেটা' এমন পরিস্থিতিতে বোঝায় যেখানে পর্যবেক্ষণের সংখ্যা (ডেটা পয়েন্ট) এত বেশি যে তথ্য বিশ্লেষক বিশ্লেষণ সম্পর্কে ভাবেন বা পরিচালনা করেন সেভাবে পরিবর্তনের প্রয়োজন হয়। ('উচ্চ মাত্রিকতা' নিয়ে বিভ্রান্ত হওয়ার দরকার নেই))

12
জিরো সহ আমি কীভাবে অ-নেতিবাচক ডেটা রুপান্তর করব?
আমি যদি উচ্চ পজিটিভ ডেটা স্কাই করে থাকি তবে আমি প্রায়শই লগ নিই। তবে জিরোস অন্তর্ভুক্ত অত্যন্ত স্কেলযুক্ত অ-নেতিবাচক ডেটা দিয়ে আমার কী করা উচিত? আমি দুটি রূপান্তর ব্যবহার দেখেছি: লগ ইন করুন( x + 1 )log⁡(x+1)\log(x+1) যার 0 টি 0 টি মানচিত্রের ঝরঝরে বৈশিষ্ট্য রয়েছে। লগ ইন করুন( এক্স …

14
হাইপোথিসিস টেস্টিংয়ের জন্য কি বড় ডেটা অনুপযুক্ত?
একটি সাম্প্রতিক প্রবন্ধ এর Amstat সংবাদ , লেখক (মার্ক ভ্যান ডার Laan এবং Sherri রোজ) বিবৃত আমরা জানি যে "যে বৃহৎ যথেষ্ট নমুনা মাপ জন্য, যে অধ্যয়ন সহ যার কোন প্রভাব নাল হাইপোথিসিস সত্য - একটি প্রচার করব পরিসংখ্যানগতভাবে উল্লেখযোগ্য প্রভাব। ঠিক আছে, আমি একজনের জন্য এটি জানতাম না। এটা …

5
বৃহত আকারের পরিসংখ্যান বিশ্লেষণগুলি করার জন্য কোন দক্ষতার প্রয়োজন?
অনেক স্ট্যাটিস্টিকাল কাজ বড় আকারের ডেটা নিয়ে অভিজ্ঞতা চায়। পরিসংখ্যানগত এবং গণনা দক্ষতার ধরণের কি কি বড় ডেটা সেট সঙ্গে কাজ করার প্রয়োজন হবে। উদাহরণস্বরূপ, বিল্ডিং রিগ্রেশন মডেলগুলি কীভাবে 10 মিলিয়ন নমুনা সহ একটি ডেটা সেট দেয়?

7
শিল্প বনাম কাগল চ্যালেঞ্জ। অভিনব মডেলিংয়ের চেয়ে আরও বেশি পর্যবেক্ষণ সংগ্রহ করা এবং আরও ভেরিয়েবলের অ্যাক্সেস পাওয়া কি আরও গুরুত্বপূর্ণ?
আমি আশা করি শিরোনামটি স্বতঃস্ফূর্ত। কেগল-এ, বেশিরভাগ বিজয়ীরা মাঝে মাঝে শত শত বেস মডেলগুলির সাথে স্ট্যাকিং ব্যবহার করেন, এমএসইর কয়েকটি অতিরিক্ত% নিখুঁত করে নিন, যথার্থতা ... সাধারণভাবে, আপনার অভিজ্ঞতা হিসাবে, স্ট্যাকিং বনাম কেবল আরও ডেটা এবং আরও বৈশিষ্ট্য সংগ্রহ করার মতো অভিনব মডেলিং কতটা গুরুত্বপূর্ণ? তথ্য জন্য?

8
'বড় ডেটা'র সময়ে স্যাম্পলিং কি প্রাসঙ্গিক?
বা আরও কিছু "তাই হবে"? বিগ ডেটা পরিসংখ্যান এবং প্রাসঙ্গিক জ্ঞানকে আরও গুরুত্বপূর্ণ করে তোলে তবে স্যাম্পলিং থিওরিটিকে আন্ডারপ্লে করে বলে মনে হয়। আমি 'বিগ ডেটা' এর আশেপাশে এই হাইপ দেখেছি এবং ভাবতে পারি না যে "কেন" আমি সবকিছু বিশ্লেষণ করতে চাই ? "স্যাম্পলিং থিওরি" ডিজাইন / প্রয়োগ / আবিষ্কার …

10
একটি বিশাল রিড-ডেটা সেট সেটটির মধ্যমটি অনুমান করার জন্য একটি ভাল অ্যালগরিদম কী?
সংরক্ষণের জন্য খুব বড় কোনও ডেটা সেটের মধ্যমাটি অনুমান করার জন্য আমি একটি ভাল অ্যালগরিদম (যার অর্থ ন্যূনতম গণনা, ন্যূনতম সঞ্চয়ের প্রয়োজনীয়তা) খুঁজছি, যেমন প্রতিটি মান কেবল একবারই পড়তে পারে (আপনি যদি সেই মানটি স্পষ্টভাবে সংরক্ষণ না করেন)। অনুমান করা যায় এমন ডেটার কোনও সীমা নেই। যথাযথতা যতক্ষণ জানা যায় …

10
বিগ ডেটা ঠিক কী?
আমাকে বেশ কয়েকটি অনুষ্ঠানে প্রশ্ন করা হয়েছিল: বিগ-ডেটা কী? শিক্ষার্থী এবং আমার আত্মীয় উভয়ই যা পরিসংখ্যান এবং এমএল-এর কাছাকাছি বাজছে। আমি এই সিভি-পোস্ট পেয়েছি । এবং আমি অনুভব করি যে আমি সেখানে একমাত্র উত্তরের সাথে একমত। উইকিপিডিয়া পৃষ্ঠা এছাড়াও এটিতে কিছু মন্তব্য আছে, কিন্তু আমি নিশ্চিত যদি আমি সত্যিই সেখানে …
44 large-data 

2
"বিগ ডেটা" থেকে কীভাবে বৈধ সিদ্ধান্ত নেওয়া যায়?
"বিগ ডেটা" মিডিয়াতে সর্বত্র রয়েছে। সকলেই বলেছেন যে "বিগ ডেটা" হ'ল ২০১২ সালের সবচেয়ে বড় বিষয়, উদাহরণস্বরূপ, কেডিনিগেটস পোষাকগুলি ২০১২ সালের জনপ্রিয় বিষয়গুলিতে । তবে এখানে আমার গভীর উদ্বেগ রয়েছে। বড় ডেটা সহ, প্রত্যেকে কিছু খুশি খুশি বলে মনে হচ্ছে । কিন্তু আমরা কি হাইপোথিসিস টেস্টিং এবং প্রতিনিধি নমুনার মতো …

6
তাত্পর্য হিসাবে তাত্পর্য হিসাবে প্রভাব আকার
আজ, ক্রস ভ্যালিডেটেড জার্নাল ক্লাবে (আপনি সেখানে ছিলেন না কেন?), @ এমবিকিউ জিজ্ঞাসা করেছেন: আপনি কি ভাবেন যে আমরা (আধুনিক তথ্য বিজ্ঞানীরা) তাৎপর্য বলতে কী বোঝে? এবং এটি কীভাবে আমাদের ফলাফলের প্রতি আমাদের আত্মবিশ্বাসের সাথে সম্পর্কিত? @ মিশেল কিছু (সাধারণত আমাকে) সাধারণত উত্তর দেয়: আমি আমার ক্যারিয়ারে চালিয়ে যাওয়ায় তাত্পর্য …

5
অত্যন্ত উচ্চ মাত্রিক শ্রেণিবিন্যাসের জন্য নিখরচায় সেট সেট [বন্ধ]
1000 টিরও বেশি বৈশিষ্ট্য (বা নমুনা পয়েন্ট এতে কার্ভগুলি অন্তর্ভুক্ত থাকলে) সহ শ্রেণিবিন্যাসের জন্য অবাধে উপলভ্য ডেটা কী ? ফ্রি ডেটা সেটগুলি সম্পর্কে ইতিমধ্যে একটি সম্প্রদায় উইকি রয়েছে: অবাধে উপলভ্য ডেটা নমুনাগুলি সনাক্ত করা তবে এখানে, আরও বেশি কেন্দ্রীভূত তালিকা থাকা আরও ভাল হবে যা আরও সুবিধে করে ব্যবহার করা …

3
সাইকিট-লার্ন ব্যবহার করে বহুবর্ষীয় রিগ্রেশন
আমি বহুবর্ষীয় রিগ্রেশন-এর জন্য সাইকিট-লার্ন ব্যবহার করার চেষ্টা করছি। আমি বহুবর্ষীয় রিগ্রেশন যা পড়েছি তা থেকে লিনিয়ার রিগ্রেশন একটি বিশেষ ক্ষেত্রে। আমি আশা করছিলাম যে সম্ভবত বিজ্ঞানের এক সাধারণীকরণীয় রৈখিক মডেলটিকে উচ্চতর অর্ডার বহুত্বের সাথে মানিয়ে নিতে প্যারামিটারাইজড করা যেতে পারে তবে আমি এটি করার কোনও বিকল্প দেখতে পাচ্ছি না। …

9
বড় ডেটাসেটগুলি মোকাবেলার জন্য পরিসংখ্যান এবং ডেটা মাইনিং সফটওয়্যার সরঞ্জাম
বর্তমানে আমাকে প্রায় 20 এম রেকর্ড বিশ্লেষণ করতে হবে এবং পূর্বাভাসের মডেলগুলি তৈরি করতে হবে। এখনও অবধি আমি স্টাটিস্টিকা, এসপিএসএস, র‌্যাপিডমিনার এবং আর চেষ্টা করেছি এই স্ট্যাটিস্টিকাকে ডেটা মাইনিংয়ের সাথে মোকাবিলা করার পক্ষে সবচেয়ে উপযুক্ত বলে মনে হয় এবং র‌্যাপিডমিনার ইউজার ইন্টারফেসও খুব সহজ তবে এটি মনে হয় যে স্ট্যাটিস্টিকা, …

1
শিল্প স্ট্রিমিং শেখার রাজ্য learning
আমি ইদানীং বড় ডেটা সেটগুলির সাথে কাজ করছি এবং স্ট্রিমিং পদ্ধতির প্রচুর কাগজপত্র পেয়েছি। কয়েকটি নাম রাখার জন্য: অনুসরণ-নিয়মিত-নেতা ও মিরর উৎরাই: Equivalence এইটার উপপাদ্য এবং এটি L1 নিয়মিতকরণ ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf ) স্ট্রিমড লার্নিং: ওয়ান-পাস এসভিএম ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf ) পেগাসোস: এসভিএমের জন্য প্রাথমিক অনুমানযুক্ত সাব-গ্রাডিয়েন্ট সল্ভার http://ttic.uchicago.edu/~nati/ প্রজাতন্ত্র / পেগাসোসএমপিবি.পিডিএফ …

1
কীভাবে একটি বিরাট স্পার্স কন্টিনজেন্সি টেবিলটি কল্পনা করা যায়?
আমার দুটি ভেরিয়েবল রয়েছে: ড্রাগ নেম (ডিএন) এবং সংশ্লিষ্ট অ্যাডওয়ার্স ইভেন্টস (এই), যা বহু-বহু-সম্পর্কের মধ্যে দাঁড়িয়ে। 33,556 ড্রাগ নাম এবং 9,516 বিরূপ ইভেন্ট রয়েছে। নমুনা আকার প্রায় 5.8 মিলিয়ন পর্যবেক্ষণ। আমি ডিএন এবং এই এর মধ্যে সমিতি / সম্পর্ক অধ্যয়ন করতে এবং বুঝতে চাই। আমি আর এই সেটটি ভিজ্যুয়ালাইজ করার …

3
বড় ডেটার জন্য প্রথম পদক্ষেপ ( , )
মনে করুন আপনি প্রতিদিন কোটি কোটি পর্যবেক্ষণের ভিত্তিতে একটি বিশাল ডেটা সেট বিশ্লেষণ করছেন, যেখানে প্রতিটি পর্যবেক্ষণে কয়েক হাজার বিচ্ছিন্ন এবং সম্ভবত অপ্রয়োজনীয় সংখ্যাসূচক এবং শ্রেণিবদ্ধ ভেরিয়েবল রয়েছে। আসুন আমরা বলি যে একটি রিগ্রেশন সমস্যা, একটি ভারসাম্যহীন বাইনারি শ্রেণিবদ্ধকরণ সমস্যা এবং "কোন ভবিষ্যদ্বাণীকারী সবচেয়ে গুরুত্বপূর্ণ তা খুঁজে বের করুন" এর …

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.