বহু বছর ধরে গুজব রয়েছে যে গুগল তার ভবিষ্যদ্বাণীপূর্ণ অ্যালগরিদম তৈরিতে সমস্ত উপলব্ধ বৈশিষ্ট্য ব্যবহার করে। এখনও অবধি, কোনও অস্বীকৃতি, ব্যাখ্যা বা শ্বেতপত্র নেই যে এই গুজবকে স্পষ্ট করে এবং / অথবা বিতর্ক করে। এমনকি তাদের প্রকাশিত পেটেন্টগুলি বুঝতে সহায়তা করে না। ফলস্বরূপ, গুগলের বহিরাগত কেউই জানেন না তারা কী করছে, আমার জ্ঞানের সেরা।
/ * ২০১২ সালের সেপ্টেম্বরে আপডেট হওয়া, গুগল টেনস্রোফ্লো প্রচারক একটি উপস্থাপনায় রেকর্ড করেছিলেন যে গুগল ইঞ্জিনিয়াররা পেজর্যাঙ্কের বর্তমান সংস্করণের জন্য নিয়মিতভাবে 5 বিলিয়ন প্যারামিটারের মূল্যায়ন করে । * /
ওপি নোট হিসাবে, ভবিষ্যদ্বাণীপূর্ণ মডেলিংয়ের বৃহত্তম সমস্যাগুলির মধ্যে একটি হ'ল ক্লাসিক হাইপোথিসিস টেস্টিং এবং খাঁটি ডেটা মাইনিং বনাম সাবধানে মডেল স্পেসিফিকেশন মধ্যে সংঘাত। ক্লাসিক্যালি প্রশিক্ষিত প্রশিক্ষিতরা মডেল ডিজাইন এবং বিকাশে "কঠোরতার" প্রয়োজন সম্পর্কে যথেষ্ট দ্বিধাদায়ক হতে পারেন। আসল বিষয়টি হ'ল যখন বিপুল সংখ্যক প্রার্থী ভবিষ্যদ্বাণী এবং একাধিক সম্ভাব্য লক্ষ্য বা নির্ভরশীল ভেরিয়েবলের মুখোমুখি হন, ক্লাসিক কাঠামোটি কার্যকর হয় না, রাখে না বা দরকারী দিকনির্দেশনা সরবরাহ করে না। চট্টোপাধ্যায় এবং লিপসনের উজ্জ্বল কাগজ ডেটা স্ম্যাশিংয়ের কাছ থেকে সাম্প্রতিক অসংখ্য কাগজপত্র এই দ্বিধা প্রকাশ করেছে : ডেটাতে উদ্ভাসিত লুকিং অর্ডার http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf
মূল সমস্যাটি হ'ল বর্তমানে বেশিরভাগ ডেটা তুলনা অ্যালগরিদমগুলি কোনও মানব বিশেষজ্ঞের উপর নির্ভর করে ডেটাগুলির 'বৈশিষ্ট্যগুলি' তুলনার জন্য প্রাসঙ্গিক specify এখানে, আমরা ডোমেন জ্ঞান বা শেখার উভয়ই ব্যবহার না করে স্বেচ্ছাচারিত তথ্য স্ট্রিমের উত্সগুলির মধ্যে সাদৃশ্যটি অনুমান করার জন্য একটি নতুন নীতি প্রস্তাব করি।
ক্লিনবার্গ দ্বারা প্রেডিকশন পলিসি সমস্যাগুলির বিষয়ে গত বছরের এআইআর পেপারে , ইত্যাদি। https://www.aeaweb.org/articles?id=10.1257/aer.p20151023 যা ডেটা মাইনিং এবং ভবিষ্যদ্বাণীকে অর্থনৈতিক নীতি নির্ধারণে দরকারী সরঞ্জাম হিসাবে উল্লেখ করে, যেখানে "কার্যকারণ অনুমিতি কেন্দ্রীয় নয়, এমনকি প্রয়োজনীয়ও নয়" উদাহরণগুলি উল্লেখ করে। "
আসল বিষয়টি হ'ল বৃহত্তর, ,000৪,০০০ ডলারের প্রশ্নটি ক্লাসিক হাইপোথিসিস-টেস্টিং ফ্রেমওয়ার্কের অন্তর্নিহিত উদাহরণস্বরূপ চিন্তাভাবনা এবং চ্যালেঞ্জকে বিস্তৃত স্থানান্তর, উদাহরণস্বরূপ, "অপ্রচলিত" বৈজ্ঞানিক চিন্তাধারার এই এজ.আর.জি. সংলাপটি https://www.edge.org/ প্রতিক্রিয়া / কি-বৈজ্ঞানিক-ধারণা-অবসর গ্রহণের জন্য প্রস্তুত এবং পাশাপাশি "নতুন অর্থনীতি" সম্পর্কে এরিক বেনহোকারের এই সাম্প্রতিক নিবন্ধ যা আচরণগত অর্থনীতি, জটিলতা তত্ত্ব, ভবিষ্যদ্বাণীমূলক মডেল হিসাবে বিস্তৃতভাবে বিভিন্ন শাখাগুলির একীকরণের জন্য কিছু মৌলিক প্রস্তাব উপস্থাপন করে নীতি বাস্তবায়ন এবং গ্রহণের প্ল্যাটফর্ম হিসাবে বিকাশ, নেটওয়ার্ক এবং পোর্টফোলিও তত্ত্ব https://evonomics.com/the-DP-and-profound-changes-in-economics-thinking/বলা বাহুল্য, এই বিষয়গুলি নিছক অর্থনৈতিক উদ্বেগের চেয়ে অনেক বেশি এগিয়ে যায় এবং পরামর্শ দেয় যে আমরা বৈজ্ঞানিক দৃষ্টান্তের ক্ষেত্রে একটি মৌলিক স্থান পরিবর্তন করছি। স্থানান্তরিত দৃষ্টিভঙ্গি হ্রাসমানের মধ্যে পার্থক্যগুলির মতোই মৌলিক, ওপামের রেজারের মতো মডেল-বিল্ডিং বনাম এপিকুরাসের বিস্তৃত নীতি বা একাধিক ব্যাখ্যা যা মোটামুটিভাবে বলে যে বেশ কয়েকটি অনুসন্ধান যদি কিছু ব্যাখ্যা করে তবে সেগুলি সবই ধরে রাখুন ... https: // en। wikipedia.org/wiki/Principle_of_plenitude
অবশ্যই, বেনহোকারের মতো ছেলেরা এই বিকশিত দৃষ্টান্তটির প্রয়োগ, পরিসংখ্যানগত সমাধান সম্পর্কিত উদ্বেগের ক্ষেত্রে ব্যবহারিকভাবে সম্পূর্ণরূপে নিরঙ্কিত। অতি উচ্চ মাত্রিক পরিবর্তনশীল নির্বাচনের কট্টর প্রশ্নগুলি লিখুন, অপারেটিং মডেল বিল্ডিংয়ের সম্ভাব্য পদ্ধতির বিষয়ে অপেক্ষাকৃত অপ্রয়োজনীয়, যেমন লাসো, এলএআর, স্টেপওয়াইজ অ্যালগরিদম বা "হাতির মডেল" যা উপলব্ধ সমস্ত তথ্যই ব্যবহার করে। বাস্তবতাটি হ'ল, এডাব্লুএস বা একটি সুপার কম্পিউটারের সাহায্যেও আপনি সমস্ত উপলব্ধ তথ্য একই সাথে ব্যবহার করতে পারবেন না - এগুলি সমস্ত লোড করার পক্ষে যথেষ্ট পরিমাণে র্যাম নেই this এর অর্থ কী? ওয়ার্কআরউন্ডগুলি প্রস্তাব করা হয়েছে, উদাহরণস্বরূপ, কমপ্লেক্স বা ম্যাসিভ ডেটাসেটগুলিতে এনএসএফের আবিষ্কার: সাধারণ পরিসংখ্যানীয় থিমবিশাল ডেটা মাইনিংয়ের জন্য অ্যালগরিদমগুলিকে "বিভাজন এবং বিজয়" করতে, যেমন, ওয়াং, এট আল এর কাগজ, পরিসংখ্যান সংক্রান্ত একটি জরিপ এবং বিগ ডেটার জন্য কম্পিউটিং http://arxiv.org/pdf/1502.07989.pdf পাশাপাশি লেসকোভেক, ইত্যাদি বই বৃহদায়তন ডেটাসেটস অনুযায়ী খনির http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets
আক্ষরিক অর্থে শত শত, যদি এই চ্যালেঞ্জগুলির বিভিন্ন দিক নিয়ে কাজ করে না এমন হাজার হাজার কাগজপত্র থাকে তবে সমস্ত বিশ্লেষণাত্মক ইঞ্জিনকে "বিভাজন এবং বিজয়" অ্যালগরিদম থেকে তাদের মূল হিসাবে প্রস্তাব করে; নিষ্ক্রিয়, "গভীর শেখার" মডেল; এলোমেলো ম্যাট্রিক্স তত্ত্বটি বিশাল কোভারিয়েন্স নির্মাণে প্রয়োগ হয়েছে; ক্লাসিক, তদারকি করা লজিস্টিক রিগ্রেশন এবং আরও অনেক কিছুতে বয়েশিয়ান টেনসর মডেল। পনেরো বছর বা তারও আগে, বিতর্কটি মূলত ক্রমবর্ধমান সসীম মিশ্রণের মডেল বনাম বংশগত বায়সিয়ান সমাধান সম্পর্কিত আপেক্ষিক গুণাবলী সম্পর্কিত প্রশ্নগুলিতে কেন্দ্র করে। এই বিষয়গুলিকে সম্বোধন করে একটি গবেষণাপত্রে, আইনজী, ইত্যাদি। http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfবাস্তবে পৃথক তাত্ত্বিক পদ্ধতির সিদ্ধান্তে এই সিদ্ধান্তে পৌঁছেছিল যে, এইচবি মডেলগুলির সুবিধা ছিল যেখানে স্পার্স এবং / বা উচ্চ মাত্রিক ডেটা জড়িত সমস্যাগুলি ব্যতীত ভিন্নতর তাত্ত্বিক পদ্ধতির ব্যপারে সমতুল্য ফলাফল তৈরি হয়েছিল। আজ ডি অ্যান্ড সি কর্মক্ষেত্রের আবির্ভাবের সাথে, এইচবি মডেলগুলির যে কোনও সালিশ historতিহাসিকভাবে উপভোগ করেছে তা নির্মূল করা হচ্ছে।
এই ডি অ্যান্ড সি কর্মক্ষেত্রগুলির মূল যুক্তিটি হ'ল এবং বড় আকারে ব্রেইমানের বিখ্যাত এলোমেলো বন প্রযুক্তির বর্ধন যা পর্যবেক্ষণ এবং বৈশিষ্ট্যগুলির বুটস্ট্র্যাপযুক্ত পুনরায় মডেলিংয়ের উপর নির্ভর করে। ব্রেইমান 90 এর দশকের শেষের দিকে একটি সিপিইউতে তাঁর কাজ করেছিলেন যখন বিশাল ডেটা কয়েক ডজন জিগ এবং কয়েক হাজার বৈশিষ্ট্য বোঝায়। আজকের বৃহত্তর সমান্তরাল, মাল্টি-কোর প্ল্যাটফর্মগুলিতে, কয়েক ঘন্টার মধ্যে লক্ষ লক্ষ "আরএফ" মিনি-মডেল তৈরির লক্ষ লক্ষ বৈশিষ্ট্যযুক্ত টেরাবাইট ডেটা বিশ্লেষণ করে অ্যালগরিদমগুলি চালানো সম্ভব।
এই সমস্ত থেকে যে কোন গুরুত্বপূর্ণ প্রশ্ন আসছে। এই কাজের ক্ষেত্রগুলির প্রাকৃতিক আকারের কারণে নির্ভুলতা হ্রাস পাওয়ার বিষয়ে উদ্বেগের সাথে একটি করতে হবে। এই সমস্যাটি চেন এবং জাই তাদের কাগজটিতে সম্বোধন করেছেন , বহির্মুখী বড় ডেটা বিশ্লেষণের জন্য একটি স্প্লিট-এন্ড-কোঙ্কার অ্যাপ্রোচ http://dimacs.rutgers.edu/ টেকনিক্যাল রিপোর্টগুলি / টেকারপোর্টস / ২০১২/২০১. pdf যেখানে তারা সিদ্ধান্তটি নিয়েছে অনুমানগুলি "সম্পূর্ণ তথ্য" মডেলগুলির থেকে পৃথক পৃথক।
দ্বিতীয় উদ্বেগ, যা আমার জ্ঞানের সর্বোপরি সাহিত্যের দ্বারা যথাযথভাবে সমাধান করা হয়নি, সম্ভাব্য কয়েক মিলিয়ন ভবিষ্যদ্বাণীমূলক মিনি-মডেলগুলির ফলাফলগুলি একবার থেকে ফলাফলের সাথে করা (যেমন, "পরামিতি") এর সাথে করতে হবে has গুটিয়ে রাখা হয়েছে এবং সংক্ষিপ্ত করা হয়েছে। অন্য কথায়, কীভাবে কেউ এই ফলাফলগুলির সাথে নতুন স্কোরকে "স্কোরিং" করার মতো সহজ কিছু কার্যকর করে? ক্ষুদ্র-মডেল সহগগুলি সংরক্ষণ এবং সংরক্ষণের জন্য রয়েছে বা নতুন ডেটাতে কি সহজেই ডি অ্যান্ড অ্যালগরিদম পুনরায় চালু করা যায়?
তাঁর বই, নাম্বার রুল ইওর ওয়ার্ল্ডে কাইজার ফাং তাদের প্রতিযোগিতার বিজয়ীদের হাতে তুলে দেওয়া মাত্র ১০৪ টি মডেলের একটি উপহার উপস্থাপন করার সময় মুখোমুখি দ্বিধা নেটফ্লিক্সের বর্ণনা দিয়েছেন। বিজয়ীরা প্রকৃতপক্ষে এমএসই বনাম অন্যান্য প্রতিযোগীদের হ্রাস পেয়েছিল তবে এটি তাদের মুভি সুপারিশকারী সিস্টেম দ্বারা ব্যবহৃত 5-পয়েন্ট, লিকার্ট-টাইপ রেটিং স্কেলের যথার্থতার ক্ষেত্রে এক দশমিক দশমিক এক দশমিক উন্নয়নে অনুবাদ করেছে। তদ্ব্যতীত, মডেলগুলির এই সংগ্রহের জন্য প্রয়োজনীয় আইটি রক্ষণাবেক্ষণের জন্য মডেল নির্ভুলতায় "উন্নতি" থেকে পাওয়া কোনও সঞ্চয় চেয়ে অনেক বেশি ব্যয় হয়।
তারপরে এই মাত্রার তথ্যের সাথে "অপ্টিমাইজেশন" এমনকি সম্ভব কিনা তা নিয়েও পুরো প্রশ্ন রয়েছে। উদাহরণস্বরূপ, পদার্থবিজ্ঞানী এবং আর্থিক প্রকৌশলী ইমানুয়েল ডার্মান তাঁর মাই লাইফ অ্যাজ কোয়ান্ট বইয়ে পরামর্শ দিয়েছেন যে অনুকূলিতকরণ একটি অন্তত আর্থিক ইঞ্জিনিয়ারিংয়ের ক্ষেত্রে একটি অনর্থক কল্পকাহিনী।
অবশেষে, প্রচুর সংখ্যক বৈশিষ্ট্যযুক্ত তুলনামূলক বৈশিষ্ট্যটির গুরুত্ব সম্পর্কিত গুরুত্বপূর্ণ প্রশ্নগুলির সমাধান করা এখনও হয়নি।
চলক নির্বাচনের প্রয়োজনীয়তা এবং বর্তমান দ্বারা নতুন নতুন চ্যালেঞ্জগুলি খোলার বিষয়ে কোনও সহজ উত্তর নেই answers মূল কথাটি হ'ল আমরা এখন সমস্ত তথ্য বিজ্ঞানী।
**** সম্পাদনা করুন ***
তথ্যসূত্র
চট্টোপাধ্যায় আই, লিপসন এইচ। 2014 ডেটা স্ম্যাশিং: ডেটাতে লুকোচুরি অর্ডার উন্মোচন। জেআর সোস। ইন্টারফেস 11: 20140826.
http://dx.doi.org/10.1098/rsif.2014.0826
ক্লেইনবার্গ, জোন, জেনস লুডভিগ, সেন্ডিল মুল্লাইনাথন এবং জিয়াড ওবারমায়ার। 2015. "ভবিষ্যদ্বাণী নীতি সমস্যা।" আমেরিকান অর্থনৈতিক পর্যালোচনা, 105 (5): 491-95। ডিওআই: 10.1257 / aer.p20151023
এজ.আর.২০১৪, বার্ষিক প্রশ্ন: স্বীকৃতি পাওয়ার জন্য সায়েন্টিফিক আইডিয়া কী প্রস্তুত?
https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement
এরিক বেইনহকার, অর্থনীতিতে কীভাবে গভীর পরিবর্তনগুলি বামে বনাম ডান বিতর্ককে অপ্রাসঙ্গিক, 2016, এভনোমিক্স.অর্গ।
https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
একাধিক ব্যাখ্যার এপিকিউরাস নীতি: সমস্ত মডেল রাখুন। উইকিপিডিয়া https: //www.c ورس hero.com/file/p6tt7ej/Epicurus- প্রিন্সিপাল- এর- বহুবিধ- এক্সপ্লোরেশন- কীপ- সমস্ত- Models- that- are-
consistance/
এনএসএফ, কমপ্লেক্স বা ম্যাসিভ ডেটাসেটস আবিষ্কার: সাধারণ পরিসংখ্যান থিমস, ন্যাশনাল সায়েন্স ফাউন্ডেশন দ্বারা অর্থায়িত একটি কর্মশালা, 16-17 অক্টোবর, 2007
https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf
চুন ওয়াং, মিং-হুই চেন, এলিজাবেথ শিফানো, জিং উ, এবং জুন ইয়ান, ওয়ার্কিং পেপার, বিগ ডেটার জন্য পরিসংখ্যানগত পদ্ধতি এবং কম্পিউটিং, অক্টোবর 29, 2015
http://arxiv.org/pdf/1502.07989.pdf
জুরে লেসকোভেক, আনন্দ রাজারামন, জেফ্রি ডেভিড উলম্যান, ম্যাসিভ ডেটাসেটসের খনি, কেমব্রিজ ইউনিভার্সিটি প্রেস; 2 সংস্করণ (29 ডিসেম্বর, 2014) আইএসবিএন: 978-1107077232
জিয়ানফেং ইয়াও, শুরং ঝেং, জিদং বাই, কেমব্রিজ ইউনিভার্সিটি প্রেসের বৃহত নমুনা কোভারিয়েন্স ম্যাট্রিক্স এবং উচ্চ-মাত্রিক ডেটা অ্যানালাইসিস (স্ট্যাটিস্টিকাল অ্যান্ড প্রোব্যাবিলিস্টিক গণিতে ক্যামব্রিজ সিরিজ); 1 সংস্করণ (30 মার্চ, 2015) আইএসবিএন: 978-1107065178
রিক এল অ্যান্ড্রুস, অ্যান্ড্রেইউ আইনজীবি এবং ইমরান এস কুরিম, ভিন্ন ভিন্নতার ধারাবাহিক উপস্থাপনা, বিপণন গবেষণা জার্নাল, 479 খণ্ডের লগইট চয়েস মডেলের একটি অনুগত তুলনা। XXXIX (নভেম্বর 2002), 479–487
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf
অসাধারণভাবে বড় ডেটা বিশ্লেষণের জন্য একটি স্প্লিট-এন্ড কোঙ্কার অ্যাপ্রোচ, জুইয়িং চেন এবং মিংজ জেই, ডিআইএমএসিএস প্রযুক্তিগত প্রতিবেদন ২০১২-০১, জানুয়ারী ২০১২
http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf
কায়সার ফাং, নাম্বারগুলি আপনার বিশ্বকে নিয়ম করুন: আপনি যা কিছু করেন তার উপর সম্ভাবনা এবং পরিসংখ্যানের লুকানো প্রভাব, ম্যাকগ্রা-পার্বত্য শিক্ষা; 1 সংস্করণ (15 ফেব্রুয়ারী, 2010) আইএসবিএন: 978-0071626538
এমমানুয়েল ডারমান, কোয়ান্ট হিসাবে আমার জীবন: পদার্থবিজ্ঞান এবং অর্থের প্রতিচ্ছবি, উইলি; 1 সংস্করণ (11 জানুয়ারী, 2016) আইএসবিএন: 978-0470192733
* নভেম্বর 2017 এ আপডেট করুন *
নাথন কুটজ ২০১৩ বই, ডেটা-ড্রাইভড মডেলিং এবং বৈজ্ঞানিক গণনা: জটিল সিস্টেমগুলির পদ্ধতি এবং বিগ ডেটা একটি গাণিতিক এবং পিডিই-কেন্দ্রিক ভ্রমণ যেমন পরিবর্তনশীল নির্বাচনের পাশাপাশি মাত্রা হ্রাস পদ্ধতি এবং সরঞ্জামগুলিতে is তার ভাবনার জন্য একটি দুর্দান্ত, 1 ঘন্টার পরিচিতি এই জুন 2017 সালে ইউটিউব ভিডিও ডায়নামিকাল সিস্টেমস এবং পিডিইগুলির ডেটা চালিত আবিষ্কারের মধ্যে পাওয়া যাবে । এতে তিনি এই ক্ষেত্রে সর্বশেষতম অগ্রগতির উল্লেখ করেছেন। https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop