মেক আপ ডেটা জন্য সেরা শব্দ?


23

আমি একটি উদাহরণ লিখছি এবং কিছু তথ্য তৈরি করেছি। আমি এটি পাঠকের কাছে পরিষ্কার হওয়া চাই এটি বাস্তব তথ্য নয়, তবে আমি বিদ্বেষের ছাপও দিতে চাই না, কারণ এটি কেবল উদাহরণ হিসাবে কাজ করে।

এই নির্দিষ্ট ডেটাতে কোনও (ছদ্ম) এলোমেলো উপাদান নেই, সুতরাং আমার কাছে মনে হয় যে 'সিমুলেটেড' উপযুক্ত নয়। আমি যদি এটাকে কল্পিত বা বানোয়াট বলি তবে তা কি প্রতারণামূলক ডেটার ছাপ দেয় ? 'মেক-আপ' এমন কোনও শব্দ যা কোনও বৈজ্ঞানিক প্রসঙ্গে খাপ খায়?

নন-সিমুলেটেড মেড-আপ ডেটার জন্য পরিসংখ্যান সাহিত্যের পরিভাষা কী?


9
কেবলমাত্র একটি মন্তব্য যুক্ত করার জন্য যা বিভিন্ন উত্তর জুড়ে ছড়িয়ে পড়ে: "সিন্থেটিক" হ'ল মেক আপ ডেটাগুলির জন্য একটি ভাল শব্দ যা যথাসম্ভব বাস্তববাদী দেখতে চেষ্টা করে, যখন "মক আপ" এমন ডেটার পরামর্শ দেয় যা নির্দিষ্ট কিছু প্রদর্শন করার জন্য তৈরি করা হয়েছিল। উদাহরণস্বরূপ, "মক আপ" ডেটাতে অযৌক্তিক আউটলিয়ারগুলি থাকতে পারে, কেবলমাত্র এটি দেখানোর জন্য যে বিদেশীদের সাথে সঠিকভাবে আচরণ করা কতটা গুরুত্বপূর্ণ।
কর্ট অ্যামোন - মনিকা

আমি ব্যক্তিগতভাবে "সিমুলেটেড" শব্দটি পছন্দ করি এবং এটি পরিসংখ্যানের সাহিত্যে সবচেয়ে বেশি সম্মুখীন হয়েছি (যেমন, "আমরা আমাদের মডেল বনাম এক্স, ওয়াই, জেড .... এর তুলনা করার জন্য সিমুলেশন পরিচালনা করেছিলাম।"
সমীর রাশিদ জাইম

উত্তর:


45

আমি সম্ভবত এই "সিন্থেটিক" বা "কৃত্রিম" ডেটা বলব, যদিও আমি এটিকে "সিমুলেটেড "ও বলতে পারি (সিমুলেশনটি খুব সহজ)।


30
একজন "খেলনা ডেটা," "খেলনা উদাহরণ," এবং "ডামি ডেটা" শোনেন। এছাড়াও আমি একমত যে "সিমুলেটেড" এলোমেলো সংখ্যার অভাবে এমনকি ভাল ফিট করতে পারে।
রোল্যান্ডো

7
"উদাহরণস্বরূপ ডেটা" বা "উদাহরণস্বরূপ ডেটা" কাজ করতে পারে
হেনরি

8
+1 ' সিনথেটিক ডেটা ' এবং ' খেলনা উদাহরণ ' উভয় পদই আমি ব্যবহার করতে পারি, যদি উপলক্ষটি উত্থাপিত হয়, যেমন 'নির্মিত উদাহরণ'। কখনও কখনও আমি "উদাহরণস্বরূপ উদাহরণ" বা অনুরূপ কিছু বলি, বিশেষত যখন উদাহরণটি নির্দিষ্ট বৈশিষ্ট্যগুলির জন্য স্পষ্টভাবে নির্মিত হয়েছিল (উদাহরণস্বরূপ যখন কোনও ভুল ধারণা ধারণার প্রতিরূপ হিসাবে ডিজাইন করা হয়েছিল)।
গ্লেন_বি -রিনস্টেট মনিকা

1
আমি বাস্তব (পরিমাপিত) ডেটা সেটগুলির জন্য খেলনা ডেটা ( কৃত্রিম বা সিমুলেটেড ব্যতীত ) ব্যবহার করার ঝোঁক রাখি যে আমি কিছু প্রদর্শন করার জন্য "অপব্যবহার" করি।
সিবিলেটরা

1
এটি আপনার অ্যাপ্লিকেশনটির উপর কিছুটা নির্ভর করে যা সবচেয়ে ভাল কাজ করবে। উদাহরণস্বরূপ, আমি "জাল" ডেটা সহ একটি প্রকল্পও করছি, তবে প্রকল্পের অন্য একটি অংশে একটি কম্পিউটার মডেল সিমুলেশন ব্যবহার করা জড়িত। সুতরাং এটি পাঠককে বিভ্রান্ত করতে পারে আমার জন্য জাল তথ্যগুলিকে "সিমুলেটেড" হিসাবে উল্লেখ করতে, মিথ্যা সূচিত করে ডেটা সিমুলেশন থেকে আসে from সুতরাং আমি "কৃত্রিম" উপর নির্ভর করে চলেছি এবং মাঝে মাঝে ডেটাটিকে "উত্পাদিত" হিসাবে বর্ণনা করি। আমি ব্যক্তিগতভাবে আমার কাছে এই শব্দটিকে "সিনথেটিক" এড়িয়ে যাব এই শব্দটি বোঝাবে যে ডেটা অন্যান্য ডেটা উত্সগুলির সংমিশ্রণ (উদাহরণ "এ এবং ডেটা বি এর" সংশ্লেষণ ")।
সিফ

12

আপনি আপনার ডেটা পড়ুন করতে চান, কল্পিত হিসাবে আপনি যে শব্দ ফ্রান্সিস Anscombe তার এখন বিখ্যাত বর্ণনা করতে ব্যবহার করা হয়, ভাল কোম্পানির মধ্যে হতে চাই চৌতাল

আনসকম্ব থেকে, এফজে (1973)। " পরিসংখ্যান বিশ্লেষণে গ্রাফ ", এএম। তাত্ক্ষণিকবাজার। 27 (1):

এর মধ্যে কয়েকটি পয়েন্ট চারটি কাল্পনিক ডেটা সেট দ্বারা চিত্রিত করা হয়েছে, প্রতিটি এগারটি (x, y) জোড়া নিয়ে টেবিলে দেখানো হয়েছে।

তবে আমি মনে করি যে আপনার সাবধানতাটি যথাযথভাবে রাখা হয়েছে, কারণ আমার OED (v4) ইঙ্গিত দেয় যে কল্পিত এই ব্যবহারটি অপ্রচলিত

কল্পিত , ক।

(Fɪktɪʃəs)

[চ। এল। Fictīci-us (চ। ফ্যাশন থেকে ফ্যাশন, কল্পিত) + -উস: দেখুন-itতিহাসিক।]

1.1 † a.1.a প্রাকৃতিক বিরোধী হিসাবে কৃত্রিম (obs।)। b.1.b জাল, 'অনুকরণ', শাম; প্রকৃত না.


পাঠযোগ্যতার দিক থেকে প্রথম পরামর্শ এবং মন্তব্যগুলি আরও ভাল বিকল্প। অস্বাভাবিক, জটিল শব্দ ব্যবহার করার দরকার নেই।
টিম

1
@ টিম: আমি সম্মত হতে চাই, তবে আমি কী সম্পর্কে একমত হব তা সম্পূর্ণরূপে নিশ্চিত নই। আপনি কি বলছেন যে এর আগে একইরকম প্রসঙ্গে ব্যবহার করা সত্ত্বেও কল্পিতগুলি খারাপ পছন্দ হবে? কারণ এটাই আমি বলছি।
আকসেলা

7

আইটি-তে আমরা প্রায়শই একে মকআপ ডেটা বলে থাকি যা মকআপ (অ্যাপ্লিকেশন) এর মাধ্যমে উপস্থাপন করতে পারে।

মকআপ ডেটা পুরোপুরি কার্যকরী অ্যাপ্লিকেশনের মাধ্যমেও উপস্থাপন করা যেতে পারে, উদাহরণস্বরূপ একটি নিয়ন্ত্রিত উপায়ে অ্যাপ্লিকেশনটির কার্যকারিতা পরীক্ষা করতে।


5
ভাল কথা, তবে আমি বিশ্বাস করি যে মকআপ ডেটা এবং সিমুলেটেড ডেটা হুবহু এক নয়। ইউনিট পরীক্ষার জন্য মকআপ ডেটা তৈরি করার সময়, আপনার কেবল আসল তথ্যগুলির কিছু প্রাথমিক বৈশিষ্ট্য সংরক্ষণ করার জন্য এটি প্রয়োজন, যখন পরিসংখ্যান বিশ্লেষণের জন্য সিমুলেটেড ডেটা ব্যবহার করার সময় আপনি সাধারণত আরও পরিশীলিত ডেটা উদাহরণ ব্যবহার করেন।
টিম

2
আমি এখনও বিশ্বাস করি যে এরিকের সঠিক যদিও, আপনি যখন বিশ্লেষণাত্মক কোড লেখেন তখন আপনার হয় আসল জিনিসটির প্রয়োজন হয় বা উপহাসের ডেটা লাগে। মক ডেটা ইমো হতে চাইলে তত বড় হতে পারে।
ম্যাথিজস সেগারস

1
আমার ধারণা, অনুশীলনগুলি সম্ভবত পরিভাষার ব্যবহারের মতো হয়। আমাদের অনেক পরীক্ষা এবং বিশ্লেষণের জন্য আমরা লাইভ ডেটা ব্যবহার করি যা সুরক্ষা এবং নাম প্রকাশের কারণে "অপসারণ" করা হয়েছে। টিমের বর্ণনা অনুসারে অন্যের জন্য আমরা খালি হাড়ের ডেটা তৈরি করি। আমার কোন দৃ strong় মতামত নেই তবে আমরা মকআপ শব্দটি বেশ আলগাভাবে ব্যবহার করি।
এরিক

3

আমি "সিনথেটিক ডেটা" শব্দটির জন্য বারবার পরামর্শ দেখেছি। তবে এই শব্দটির বিস্তৃত ব্যবহার রয়েছে এবং আপনি যা প্রকাশ করতে চান তার থেকে একেবারেই আলাদা অর্থ: https://en.wikedia.org/wiki/Synthet_data

আমি নিশ্চিতভাবে একটি সাধারণভাবে গৃহীত বৈজ্ঞানিক শব্দ নেই, তবে "উদাহরণ ডেটা" শব্দটি ভুল বোঝা শক্ত বলে মনে হচ্ছে?


1
এই নিবন্ধটি কিছুটা বিভ্রান্ত বলে মনে হচ্ছে - নাম প্রকাশের সাথে সম্পর্কটি বেশ সুস্পষ্ট।
ম্যাট ক্রাউস

+1 তবে আমি পূর্ববর্তী মন্তব্যে একমত: দ্বিতীয় অনুচ্ছেদগুলি বাদ দিয়ে (সংশ্লেষিত ডেটা এক ধরণের বেনামেড ডেটা বলে), উইকিপিডিয়া নিবন্ধের বাকী অংশটি প্রশ্নকর্তা কী চান তা বর্ণনা করে বলে মনে হচ্ছে। অর্থাত্ বাস্তব-চেহারাযুক্ত মেক-আপ ডেটা।
ড্যারেন কুক

3

আমি 'নকল তথ্য' শব্দটি ন্যায্য পরিমাণে এসেছি। আমার ধারণা এটির কিছু নেতিবাচক ধারণা থাকতে পারে তবে আমি এটি প্রায়শই শুনেছি যে এটি আমার জন্য নেতিবাচকভাবে নিবন্ধন করে না।

এফডাব্লুআইডাব্লু, অ্যান্ড্রু গেলম্যানও এটি ব্যবহার করেন:

https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/

https://statmodeling.stat.columbia.edu/2019/03/23/yes-i-really-really-really-like-fake-data-simulation-and-i-cant-stop-talking-about-it/

https://books.google.dk/books?id=lV3DIdV0F9AC&pg=PA155&lpg=PA155&dq=fake+data+simulation&source=bl&ots=6ljKB6StQ4&sig=ACfU3U17GLP_84q_HfIQB4u5O6wV0yA2Aw&hl=en&sa=X&ved=2ahUKEwiF2_eB0uvjAhWswcQBHSn5Cn04ChDoATAAegQICRAB#v=onepage&q=fake%20data%20simulation&f=false

'জাল ডেটা'র জন্য একটি দ্রুত গুগল অনুসন্ধান অনেকগুলি ফলাফলের সন্ধান করে যা মনে হয় শব্দটি একইভাবে ব্যবহার করছে:

https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/

http://modernstatisticalworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html

https://clayford.github.io/dwir/dwr_12_generating_data.html

এমনকি একটি fakeRপ্যাকেজও রয়েছে, যা প্রস্তাব দেয় যে এটি তুলনামূলকভাবে সাধারণ: https://cran.r-project.org/web/packages/fakeR/fakeR.pdf


2

আমি যে পদ্ধতিতে ডেটা ব্যবহার করি তার উপর নির্ভর করে আমি একটি আলাদা শব্দ ব্যবহার করি। যদি আমি চারপাশে থাকা মেড-আপ ডেটাসেটটি খুঁজে পেয়েছি এবং এটিতে আমার অ্যালগরিদমকে নিশ্চিতকরণে নির্দেশ করেছি, তবে "সিনথেটিক" শব্দটি ঠিক আছে।

যাইহোক, প্রায়শই আমি যখনই এই ধরণের ডেটা ব্যবহার করি তখন আমি আমার অ্যালগোরিদমের সক্ষমতা প্রদর্শন করার নির্দিষ্ট অভিপ্রায় সহ ডেটা উদ্ভাবন করেছি। অন্য কথায়, আমি "ভাল ফলাফল" পাওয়ার নির্দিষ্ট উদ্দেশ্যে ডেটা উদ্ভাবন করেছি। এই পরিস্থিতিতে ডেটা সম্পর্কে আমার প্রত্যাশার ব্যাখ্যা সহ আমি "কনট্রিভড" শব্দটি পছন্দ করি। এটি কারণ আমি চাই না যে কেউ ভাবতে ভুল করতে পারে যে আমি আমার অ্যালগরিদমকে কিছু স্বেচ্ছাসেবী সিন্থেটিক ডেটাসেটের দিকে লক্ষ্য করেছি যা আমি প্রায় শুয়ে পড়েছি এবং এটি সত্যই কার্যকর হয়েছে। আমার অ্যালগরিদমকে ভালভাবে কাজ করার জন্য যদি আমার কাছে চেরি-বাছাই করা ডেটা থাকে (আসলে এটি তৈরির বিন্দুতে), আমি তাই বলি। এটি কারণ যেমন ফলাফলগুলি প্রমাণ দেয় যে আমার অ্যালগরিদম পারেভাল কাজ, কিন্তু শুধুমাত্র খুব দুর্বল প্রমাণ যে এক অ্যালগরিদম ভাল কাজ করতে আশা করতে পারে প্রদান সাধারণভাবে । "কনট্রিভড" শব্দটি সত্যিই খুব সুন্দরভাবে যুক্ত হয়েছে যে আমি "ভাল ফলাফল" মনে রেখে ডেটা বেছে নিয়েছি, একটি অগ্রাধিকার।

"এটি কি প্রতারণামূলক ডেটার ছাপ দেয় ?"

না, তবে, কোনও ডেটাসেটের উপর আপনার ফলাফলের প্রতিবেদন করার সময় কোনও ডেটাসেটের উত্স এবং পরীক্ষক হিসাবে আপনার অগ্রাধিকার প্রত্যাশা সম্পর্কে পরিষ্কার হওয়া গুরুত্বপূর্ণ important শব্দটি "জালিয়াতি" স্পষ্টভাবে কিছু ঢেকে রেখে বা সরাসরি মিথ্যা থাকার একটা দিক রয়েছে। বিজ্ঞানের জালিয়াতি কমিশন এড়ানোর # 1 উপায় হ'ল আপনার ডেটার প্রকৃতি এবং আপনার প্রত্যাশাগুলি সম্পর্কে সৎখাঁটি হওয়া। অন্য কথায়, যদি আপনার ডেটা বানোয়াট হয় এবং আপনি কোনওভাবেই বেশি কিছু বলতে ব্যর্থ হন এবং এমন এক ধরণের প্রত্যাশা থাকে যে ডেটা বানোয়াট নয় বা আরও খারাপ, আপনি দাবি করেন যে ডেটাটি কিছু অ-মনগড়া সাজানোতে সংগৃহীত হয়েছে উপায়, তারপর যে হয়"জালিয়াতি"। জিনিসটি করবেন না। যদি আপনি "বানোয়াট" শব্দটির জন্য কিছু শব্দ প্রতিশব্দ ব্যবহার করতে চান যা "সিন্থেটিক" এর মতো "আরও ভাল মনে হয়", তবে কেউ আপনাকে দোষ দিবে না, তবে একই সাথে আমিও ভাবি না যে আপনাকে বাদ দিয়ে অন্য কেউ পার্থক্যটি লক্ষ্য করবে।

একটি পার্শ্ব নোট:

খুব কম স্পষ্ট পরিস্থিতিতে এমন যে পরিস্থিতিতে যখন দাবি করা হয় যে একটি প্রাক্কলিত প্রত্যাশা ছিল যা প্রকৃতপক্ষে এই ব্যাখ্যাগুলি পোস্ট করে । এটিও ডেটা বিশ্লেষণযোগ্য।

যখন কোনও অ্যালগোরিদমের সক্ষমতা "প্রদর্শন" করার অভিপ্রায় সাথে বিশেষ করে ডেটা বেছে নেওয়া হয়, তখন সিন্থেটিক ডেটার ক্ষেত্রে প্রায়শই ঘটে থাকে this

DHHDD এই সংকীর্ণ সংজ্ঞার মধ্যে কাজ , তবে এটাকেই "কনফার্মিটিরি" বিশ্লেষণ বলা হয় এবং এটি সাধারণত যে প্রমাণ সরবরাহ করতে পারে তার শক্ততম রূপ হিসাবে বিবেচিত হয়। যেহেতু ইভেন্টের ক্রম প্রমাণের শক্তির সাথে সংযুক্ত থাকে তাই এগুলি নির্দিষ্ট করে নথিভুক্ত করা গুরুত্বপূর্ণ is

HDHD , একটি "প্রমাণক্ষম" পদ্ধতিতে transpired কারণ যে পাঠকদের নেতৃত্ব ঘটনা উপসংহারে অর্থও যে করা জরুরী যে আপনার প্রমাণ শক্তিশালী তুলনায় এটি আসলে হয়।

এই কাজ সঙ্গে কোনো সমস্যা আছে, তাই যতদিন আপনি হয় সৎ এবং স্পষ্টাস্পষ্টি তুমি কি করেছো সম্পর্কে। আপনি যদি এমন কোনও ডেটাসেট তৈরি করতে ব্যথার মধ্যে পড়ে থাকেন যা "ভাল ফলাফল" দেয়, তাই বলুন। আপনার ডেটা বিশ্লেষণে আপনি যে পদক্ষেপ নিয়েছেন তা পাঠককে যতক্ষণ আপনি জানতে দিন, তাদের কাছে আপনার অনুমানের পক্ষে বা বিপক্ষে প্রমাণ কার্যকরভাবে বিবেচনা করার জন্য প্রয়োজনীয় তথ্য রয়েছে। আপনি যখন নয় সৎ বা নেই স্পষ্টাস্পষ্টি , তারপর এই ছাপ যে আপনার প্রমাণ শক্তিশালী তুলনায় এটি সত্যিই হয় দিতে পারে। আপনি যখন জ্ঞাতসারে কম সৎ এবং স্পষ্টাস্পষ্টি আপনার প্রমাণ তৈরীর অনুরোধে জন্য শক্তিশালী তুলনায় এটি সত্যিই মনে হয়, তাহলে যে, প্রকৃতপক্ষে, প্রতারণাপূর্ণ

যাই হোক না কেন, এই কারণেই আমি এই জাতীয় ডেটাসেটগুলির জন্য "কনট্রিভড" শব্দটি পছন্দ করি এবং একটি সংক্ষিপ্ত ব্যাখ্যা সহ যে সেগুলি প্রকৃতপক্ষে, একটি অনুমানকে মাথায় রেখেই বেছে নেওয়া হয়েছে। "অবদানপ্রাপ্ত" এই ধারণাটি প্রকাশ করে যে আমি কেবল একটি সিন্থেটিক ডেটাसेट তৈরি করি নি, তবে আমি এটি নির্দিষ্ট অভিপ্রায় নিয়ে করেছি যা এই সত্যটি প্রতিফলিত করে যে আমার ডেটাসেট তৈরির আগে আমার অনুমান ইতিমধ্যে ছিল already

একটি উদাহরণ দিয়ে উদাহরণস্বরূপ: আপনি নির্বিচারে সময়-সিরিজের বিশ্লেষণের জন্য একটি অ্যালগরিদম তৈরি করেন। আপনি অনুমান করেছেন যে সময়-সিরিজের দিকে ইঙ্গিত করা হলে এই অ্যালগরিদম "ভাল ফলাফল" দেবে। এখন, নিম্নলিখিত দুটি সম্ভাবনা বিবেচনা করুন: 1) আপনি এমন কিছু সিন্থেটিক ডেটা তৈরি করেন যা আপনার অ্যালগরিদমকে ভালভাবে সম্পাদন করার প্রত্যাশা করে thing আপনি এই ডেটা বিশ্লেষণ করুন এবং অ্যালগরিদম ভাল সম্পাদন করে। 2) আপনি কিছু সিন্থেটিক ডেটাসেট দখল করেছেন কারণ সেগুলি কেন পাওয়া যায় না। আপনি এই ডেটা বিশ্লেষণ করুন এবং অ্যালগরিদম ভাল সম্পাদন করে। আপনার অ্যালগরিদম নির্বিচারে সময়-সিরিজে ভাল সম্পাদন করে যে এই দুটি পরিস্থিতির মধ্যে আরও ভাল প্রমাণ সরবরাহ করে? স্পষ্টতই, এটি বিকল্প 2। তবে, বিকল্প 1 বা বিকল্প 2 তে রিপোর্ট করা সহজ হতে পারে যে "আমরা অ্যালগোরিদম প্রয়োগ করেছিADx.y

TL; ড

আপনার পছন্দ মতো যে শব্দটি ব্যবহার করুন, "সিন্থেটিক", "কনট্রিভড", "মনগড়া", "কল্পিত"। তবে, আপনি যে শব্দটি ব্যবহার করছেন তা আপনার ফলাফল বিভ্রান্তিকর না হয় তা নিশ্চিত করতে অপর্যাপ্ত । নিশ্চিত হয়ে নিন যে ডেটা সম্পর্কে আপনার প্রত্যাশা এবং আপনি যে ডেটাটি বেছে নিয়েছেন তা কেন আপনার পছন্দগুলি সহ ডেটা কীভাবে এসেছিল সে সম্পর্কে আপনি আপনার প্রতিবেদনে পরিষ্কার are


যদিও এখানে উত্তরগুলি ওভারল্যাপ হয়ে গেছে এবং প্রায় সবগুলিই এটি ভাল পয়েন্ট দেয় এটি আমার মনে হয় সবচেয়ে ভাল মূল বক্তব্যটি পৌঁছে দেয় যে কোনও একক শব্দই সমস্ত পাঠককে ডেটা তৈরির পিছনে অভিপ্রায় জানাতে পারে না । রেইনগুলি কেবলমাত্র উপযুক্ত নয় তবে প্রয়োজনের জন্য অলসতার কারণে (দুর্বল সূচনা পাঠ্য) প্রতারণা এবং জালিয়াতি অবধি হতে পারে। আপনি কেন কিছুদূর ধরে এটি করছেন তা ব্যাখ্যা করা ভাল ধারণা হতে পারে।
নিক কক্স

... কারণ ...
নিক কক্স

1

প্রথমত, এটিকে "ডেটাসেট" না বলার কোনও কারণ নেই। "নকল" বনাম "সিমুলেটেড" বনাম ... ডেটার জন্য সর্বজনীনভাবে পদ (গুলি) এর উপর একমত নয়। লক্ষ্যটি যদি পুরোপুরি পরিষ্কার হয় তবে এই ডেটাসেটটি কী যোগ্য তা অর্জন করার জন্য আসলে একটি শব্দের চেয়ে একটি বাক্যকে উত্সর্গ করা ভাল। এর পরে, আপনি উপাধি শিথিল করতে পারেন এবং কেবল আপনার ডেটাটিকে ডেটা হিসাবে উল্লেখ করতে পারেন।

"সিনথেটিক", "কৃত্রিম" আমার মনে থাকা অন্যান্য এমসিএমসির নমুনাযুক্ত "সিমুলেটেড" ডেটাসেট থেকে পৃথক করে না। একটি নির্দিষ্ট বীজের সাথে কোজিরানডম নম্বর জেনারেটর ব্যবহার করা (যথাযথ প্রশিক্ষণ হ'ল) ​​একটি সিন্থেটিক বা কৃত্রিম ডেটাসেট তৈরি করে।

যদি কোনও সম্ভাব্যতা মডেল থেকে উদাহরণ বা উপলব্ধির পরিবর্তে নির্দিষ্ট চিত্রের জন্য কোনও ডেটাসেটকে তৈরি করার বিষয়টি বিবেচনা করে তবে আমি মনে করি যে এই জাতীয় একটি ডেটাসেটকে একটি " উদাহরণস্বরূপ ডেটাসেট " বলা ভাল। এগুলির মতো ডেটা আনসকম্বের চৌকোঠির অনুরূপ: সম্পূর্ণ বিমূর্ত এবং কল্পনাযোগ্য নয়, তবে এটি একটি বিন্দুর চিত্রিত করার উদ্দেশ্যে।


1

জীববিজ্ঞানে, বিশ্লেষণগুলি কখনও কখনও পৌরাণিক প্রাণীদের একটি ডেটাসেট ব্যবহার করে প্রদর্শিত হয়। ডেটা সিমুলেটেড হয়েছে তা স্পষ্টভাবে বলতে হবে কি না লেখক / পর্যালোচকের উপর নির্ভর করে।

পশুর মডেলটির জন্য বাস্তুবিদদের গাইড, ২০০৯

এই টিউটোরিয়ালগুলি গ্রিফনের একটি জনসংখ্যার (লেখকদের এভিয়ান এবং স্তন্যপায়ী প্রাণীর পক্ষের মধ্যে একটি সমঝোতা প্রতিফলিত করে) একাধিক পরিমাণগত জেনেটিক বিশ্লেষণের বর্ণনা দেয়। গ্রিফন একটি পৌরাণিক প্রাণী হিসাবে সরবরাহিত ডেটাগুলি প্রয়োজনীয়ভাবে সিমুলেট করা হয়েছিল।

স্থির প্রভাবের বৈকল্পিকতা এবং পুনরাবৃত্তিযোগ্যতা এবং heritতিহ্যগুলির মূল্যায়ন: ইস্যু এবং সমাধান, 2017

এটি চিত্রিত করার জন্য, আসুন উইলসন (২০০৮) এর ইউনিকর্ন ডেটাসেটে ফিরে যাই। এটি একটি পরিচিত সত্য যে ইউনিকর্নগুলিতে শিংয়ের দৈর্ঘ্য পৃথক শারীরিক ভর অনুসারে পরিবর্তিত হয় (opeাল:, = 0.403 পূর্ণ মডেলের জন্য বয়স, লিঙ্গ এবং তাদের মিথস্ক্রিয়া সহ)।


1
আকর্ষণীয় পদ্ধতির! আমি মনে করি জীববিজ্ঞানের শিক্ষার্থীদের পরিসংখ্যান শেখানোর জন্য এটি দুর্দান্ত হতে পারে। যদিও জনগণের কাছে উপস্থাপন করার সময়, আমি নিশ্চিত নই যে
এটির দ্বারা

0

স্বজ্ঞাতভাবে আমি 'ডামি ডেটা' শব্দটিতে যাব, একই অর্থে "লরেম ইপসাম ..." কে ডামি পাঠ্য বলা হয়। 'ডামি' শব্দটি বিভিন্ন ব্যাকগ্রাউন্ডের লোকদের পক্ষে বেশ সাধারণ এবং সহজেই বোঝা যায় এবং এর চেয়ে কম পরিসংখ্যানের পটভূমির পাঠকদের দ্বারা ভুল ব্যাখ্যা করা সম্ভব হয় না।


2
এটি যদি কোনও রিগ্রেশন প্রসঙ্গে থাকে তবে আমি "ডামি" ওভারলোডিং এড়াতে পারব, পাছে আপনার ডামি ভেরিয়েবলগুলি এনকোডিং করে ডামি ডেটা না পাবে।
ম্যাট ক্রাউস

আমি সম্মত, আমি ব্যক্তিগতভাবে এড়াতে পারব যেহেতু "ডামি" ইতিমধ্যে রিগ্রেশনে একটি ধারনা বোঝায়। প্রদত্ত শর্তাদি প্রচুর পরিমাণে পাওয়া যায়, সেই শর্তগুলি এড়ানো ভাল best যা বিভিন্ন লোকের জন্য বিভিন্ন জিনিস বোঝাতে পারে।
সমীর রাশিদ জাইম

0

ডেটা ল্যাটিন হিসাবে দেওয়া হয় , যা রেকর্ডকৃত তথ্যের সেটকে সংক্ষিপ্তকরণ হিসাবে আধুনিক সময়ে ব্যবহৃত হয় । সুতরাং কিছু উপায়ে দেওয়া তথ্য হিসাবে মনগড়া রেকর্ডিংয়ে উল্লেখ করা একটি উন্মুক্ত দ্বন্দ্ব হবে।

যাইহোক, বৃদ্ধির ব্যবহারের কারণে ডাটা শুধু উল্লেখ করতে রেকর্ডিং - নির্বিশেষে রেকর্ড ঘটনা হচ্ছে মূল অনুমান এর - আমরা আনন্দের সাথে একে অপরের বুঝতে যখন রেকর্ডিং বা হতে পারে সম্পর্কে কথা বলা সত্যবাদী অত: পর বাস্তব / জাল তথ্য -।

আমি নীচে মনগড়া রেকর্ডিংগুলিকে সম্বোধন করার উপায়গুলির আমার অভিজ্ঞতার সংক্ষিপ্তসার করব। ব্যবহৃত লেবেল নির্ভর করে যে কেউ ধরে নিচ্ছে যে আমরা ডেটাটি বানোয়াট রেকর্ডিং হিসাবে কথা বলছি যা আরও বিশ্লেষণকে সক্ষম করার জন্য যুক্তিসঙ্গত বাস্তব হিসাবে দেখানোর উদ্দেশ্যে তৈরি করা হয়েছে, বা ডেটা একটি গণনার লোড হিসাবে।

  • বিশ্লেষণ / তথ্য বিজ্ঞান / কৌশলগত পরামর্শদণ্ডের চেনাশোনাগুলিতে লোকেরা প্রায়শই রিয়েলিক্সিংয়ের একটি মনগড়া সেটকে সিন্থেটিক ডেটা হিসাবে সংবেদনশীল ডেটা হিসাবে গণ্য করে - এবং মাঝে মাঝে সিমুলেটেড ডেটা বলে । অপরিশোধিত অনুমানগুলি ব্যবহার করে তৈরি রেকর্ডিংগুলিকে খেলনা ডেটাসেট হিসাবে উল্লেখ করা হয় ।
  • সফ্টওয়্যার ইঞ্জিনিয়ারদের মধ্যে, ভুয়া তথ্য , ডামি ডেটা , মেক -আপ ডেটা এবং মক-আপ ডেটা ঘন ঘন লেবেল যা মূলত রেকর্ডিংয়ের প্রতি ইঙ্গিত দেয় যা বাস্তবসম্মত বৈশিষ্ট্যগুলি বোঝায় না, তবে কেবলমাত্র মূল তথ্যের সাথে বেসিক বৈশিষ্ট্যগুলি ভাগ করে দেয় (বয়সের তথ্য সর্বদা সংখ্যাসূচক থাকে , ইমেল ঠিকানাগুলি সর্বদা স্ট্রিংগুলিতে থাকে যেখানে "@") থাকে।
  • একাডেমিক গবেষকরা সিউডো-ডেটা বা সিমুলেটেড ডেটা হিসাবে মনগড়া রেকর্ডিংয়ের একটি বাস্তবসম্মত সেটকে উল্লেখ করবেন । কিছু চেনাশোনাগুলিতে, যদি পর্যবেক্ষণগুলির বানোয়াট সেটটি মন্টি কার্লো সিমুলেশনের ফলাফল হয়, তবে এটি গোপনে মন্টে কার্লো হিসাবে অভিহিত হতে পারে । আধা-বাস্তবসম্মত রেকর্ডিংগুলি সাধারণত চিত্রিত উদ্দেশ্যে বা বিকল্প অনুমানের পরীক্ষার জন্য ব্যবহৃত হয় এবং খেলনা ডেটাসেট হিসাবে উল্লেখ করা হয়

2
"মন্টি কার্লো" এই পদ্ধতির নাম, সুতরাং "আড়ম্বরপূর্ণ" নামটি খুব বিভ্রান্তিকর হবে।
টিম

@ টিম প্রকৃতপক্ষে, এটি বিভ্রান্তিকর হিসাবে দেখা যেতে পারে। যাইহোক, ভাষা হ'ল একটি সরঞ্জাম যা কোনও সম্প্রদায়ের মধ্যে somethingকমত্যকে ভিত্তি করে কিছুকে বোঝার উপায় হিসাবে। এতটুকু যে আমরা প্রদত্ত রেকর্ডিং এবং পরিমাপের জন্য এই সাইটটিতে উল্লেখ করছি (ল্যাটিন ডেটার জন্য ইংরাজী )। আমি যদি আপনার দৃষ্টিভঙ্গি অবলম্বন করি তবে আমি সুনির্দিষ্ট পরিমাপগুলিকে সম্বোধন করতে ভুয়া হিসাবে জবাবদিহি করলাম ।
ফামারগার

আমি আশা করি আপনি এখন দেখতে পাবেন যে একটি "মন্টি কার্লো সিমুলেশন" হিসাবে কেবল "মন্টি কার্লো" হিসাবে উল্লেখ করা "দেওয়া" হিসাবে "প্রদত্ত পর্যবেক্ষণ" উল্লেখ করার একটি আধুনিক সংস্করণ। আমি "উত্তর" শব্দের আসল ব্যবহারের বনাম এবং এর অর্থের আরও বিবেচনা যুক্ত করার জন্য আমার উত্তরটি সম্পাদনা করেছি।
ফামারগার

1
"একাডেমিক গবেষকরা সিউডো-ডেটা হিসাবে প্রায়শই বানোয়াট রেকর্ডিংয়ের একটি বাস্তবসম্মত সেটকে উল্লেখ করবেন": আমি এই শব্দটি 40+ বছরের একাডেমিক গবেষণায় কখনও দেখিনি। "শিক্ষাবিদদের সাধারণত অবাস্তব রেকর্ডিংয়ের জন্য কোনও ব্যবহার থাকে না": দুঃখিত, তবে এটি মারাত্মক ভুল। অনেকের একাডেমিকস, অনেক ক্ষেত্রে বিভিন্ন ধরণের সিমুলেশন ব্যবহার করা হয়। এমনকি অবাস্তব সিমুলেশনগুলি দরকারী হতে পারে, উদাহরণস্বরূপ সাধারণ নমুনার পরিবর্তনশীলতা অ-স্বাভাবিকতা মূল্যায়নের জন্য গুরুত্বপূর্ণ প্রসঙ্গ।
নিক কক্স

@ নিককক্স সিউডোডাটা প্রায়শই পদার্থবিজ্ঞানে ব্যবহৃত হয় এবং আমি এটি জীববিজ্ঞান এবং পরিসংখ্যানগুলিতে দেখেছি। আপনার ক্ষেত্রটি কী এবং আপনার ক্ষেত্রটি কীভাবে সিমুলেশনগুলিকে বোঝায় তা জানতে আগ্রহী হবে। অবাস্তব তথ্য হিসাবে, আমি অবাস্তব এবং আধা-বাস্তবের মধ্যে পার্থক্য করেছি। আমি আপনার ব্যবহারের ক্ষেত্রে মিস করেছি?
ফামারগার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.