উচ্চ মাত্রিক ডেটা ভিজ্যুয়ালাইজ করার উদ্দেশ্য?


23

টি-এসএনই, আইসোম্যাপ, পিসিএ, তদারকি করা পিসিএ ইত্যাদির মতো হাই ডাইমেনশন ডেটাসেটগুলি ভিজ্যুয়ালাইজ করার জন্য অনেক কৌশল রয়েছে এবং আমরা ডেটা 2 ডি বা 3 ডি স্পেসে প্রজেক্ট করার গতিতে চলে যাই, সুতরাং আমাদের কাছে "সুন্দর ছবিগুলি" রয়েছে "। এই এম্বেডিং (নানাবিধ লার্নিং) পদ্ধতির কিছু বর্ণনা করা হয় এখানে

এখানে চিত্র বর্ণনা লিখুন

কিন্তু এই "সুন্দর ছবি" আসলেই কি অর্থবহ? এই এম্বেড করা স্থানটিকে কল্পনা করার চেষ্টা করে কী কী অন্তর্দৃষ্টি দখল করতে পারে?

আমি জিজ্ঞাসা করি কেননা এই এমবেড করা জায়গার প্রক্ষেপণটি সাধারণত অর্থহীন। উদাহরণস্বরূপ, আপনি যদি পিসিএ দ্বারা উত্পাদিত মূল উপাদানগুলির জন্য আপনার ডেটা প্রজেক্ট করেন তবে সেই মূল উপাদানগুলি (আইগানভেেক্টর) ডেটাসেটের বৈশিষ্ট্যের সাথে মিল রাখে না; তারা তাদের নিজস্ব বৈশিষ্ট্য স্থান।

একইভাবে, টি-এসএনই আপনার ডেটাটি একটি স্পেসে প্রজেক্ট করে, যেখানে আইটি কিছু একে অপরের কাছে থাকে যদি তারা কিছু কেএল বিচ্যুতি হ্রাস করে। এটি আর মূল বৈশিষ্ট্যের স্থান নয়। (আমি ভুল হলে আমাকে সংশোধন করি, তবে এমএল সম্প্রদায় দ্বারা শ্রেণিবদ্ধকরণে সহায়তার জন্য টি-এসএনই ব্যবহার করার বৃহত প্রচেষ্টা চলছে বলে আমি মনে করি না; যদিও এটি ডেটা ভিজ্যুয়ালাইজেশনের চেয়ে আলাদা সমস্যা))

আমি কেন এই ভিজ্যুয়ালাইজেশনের কিছু সম্পর্কে লোকেরা এত বড় চুক্তি করে তা নিয়ে আমি খুব বিস্তৃতভাবেই বিভ্রান্ত।


এটি কেবল "সুন্দর ছবি" সম্পর্কে নয় তবে উচ্চ মাত্রিক তথ্যটি দেখার নিয়মিত নিয়মিত 2/3 ডাইমেনশনাল ডেটা দেখার জন্য অনুরূপ। যেমন পারস্পরিক সম্পর্ক, সীমানা এবং বহিরাগতদের।
ইলিয়াসাহ

@ এলিয়াসাহ: আমি তা বুঝতে পেরেছি। তবে আপনি যে ডেটাতে আপনার ডেটা প্রজেক্ট করেন সেটি আর আসল স্থান নয়, যা উচ্চ মাত্রায় কিছু আকার বিকৃত করতে পারে। বলুন আপনার 4 টি মাত্রায় একটি ব্লব রয়েছে। আপনি এটিকে 2 ডি বা 3 ডি তে প্রজেক্ট করার সাথে সাথেই আপনার কাঠামো ইতিমধ্যে ধ্বংস হয়ে গেছে।
hlin117

যদি আপনার চিত্রের মতো ডেটা নিম্ন-মাত্রিক বহুগুণে থাকে তবে তা নয় Not এই বহুগুণ নির্ধারণ করা বহুগুণে শিক্ষার লক্ষ্য।
এমরে

উত্তর:


9

আমি প্রাকৃতিক ভাষা প্রক্রিয়াকরণটিকে উদাহরণ হিসাবে গ্রহণ করি কারণ সেই ক্ষেত্রটিতে আমার আরও অভিজ্ঞতা রয়েছে তাই আমি অন্যদের যেমন কম্পিউটার ভিশন, বায়োস্ট্যাটিকস, টাইম সিরিজ ইত্যাদির মধ্যে তাদের অন্তর্দৃষ্টি ভাগ করে নিতে উত্সাহিত করি আমি নিশ্চিত সেগুলি এখানে রয়েছে অনুরূপ উদাহরণ।

আমি সম্মত হই যে কখনও কখনও মডেল ভিজ্যুয়ালাইজেশন অর্থহীন হতে পারে তবে আমি মনে করি যে এই ধরণের ভিজ্যুয়ালাইজেশনের মূল উদ্দেশ্যটি আমাদের এটি পরীক্ষা করাতে সহায়তা করে যা মডেলটি আসলে মানুষের অন্তর্দৃষ্টি বা অন্য কোনও (অ-গণনীয়) মডেলের সাথে সম্পর্কিত কিনা। অতিরিক্তভাবে, অনুসন্ধানের ডেটা বিশ্লেষণ ডেটাতে করা যেতে পারে।

ধরে নেওয়া যাক আমাদের জেনসিম ব্যবহার করে উইকিপিডিয়া কর্পাস থেকে একটি শব্দ এম্বেডিং মডেল তৈরি করেছেন

model = gensim.models.Word2Vec(sentences, min_count=2)

তারপরে সেই কর্পাসে উপস্থাপিত প্রতিটি শব্দের জন্য আমাদের কাছে 100 টি মাত্রার ভেক্টর থাকবে যা কমপক্ষে দুবার উপস্থিত রয়েছে। সুতরাং আমরা যদি এই শব্দগুলি কল্পনা করতে চাই তবে আমাদের টি-স্নেহ অ্যালগরিদম ব্যবহার করে তাদের 2 বা 3 মাত্রায় কমিয়ে আনতে হবে। এখানে খুব আকর্ষণীয় বৈশিষ্ট্য উত্থাপিত হয়।

উদাহরণটি ধরুন:

ভেক্টর ("কিং") + ভেক্টর ("পুরুষ") - ভেক্টর ("মহিলা") = ভেক্টর ("রানী")

http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

এখানে প্রতিটি দিক নির্দিষ্ট সিনটিক বৈশিষ্ট্যগুলি এনকোড করে। 3 ডি তেও একই কাজ করা যেতে পারে

https://www.tensorflow.org/versions/master/images/linear-relationships.png
(উত্স: tensorflow.org )

দেখুন এই উদাহরণে অতীত কালটি তার অংশগ্রহণকারীর সাথে সম্পর্কিত কোনও নির্দিষ্ট অবস্থানে কীভাবে অবস্থিত। লিঙ্গ জন্য একই। দেশ এবং রাজধানী একই।

এম্বেডিং ওয়ার্ল্ড শব্দের মধ্যে, পুরানো এবং আরও নিষ্পাপ মডেলগুলির কাছে এই সম্পত্তিটি ছিল না।

আরও তথ্যের জন্য এই স্ট্যানফোর্ড বক্তৃতাটি দেখুন। সরল ওয়ার্ড ভেক্টরের উপস্থাপনা: ওয়ার্ড 2 ওয়েভ, গ্লোভ

এগুলি কেবল শব্দার্থবিজ্ঞানের জন্য বিবেচনা না করে একসাথে একই শব্দগুলিকে ক্লাস্টার করার মধ্যে সীমাবদ্ধ ছিল (লিঙ্গ বা ক্রিয়া কালকে নির্দেশ হিসাবে এনকোড করা হয়নি)। অবিশ্বাস্যরকম মডেলগুলির মধ্যে নিম্নতর মাত্রাগুলির দিকনির্দেশগুলি আরও সঠিক হিসাবে সিমেটিক এনকোডিং রয়েছে। এবং আরও গুরুত্বপূর্ণ, এগুলি প্রতিটি তথ্য পয়েন্টকে আরও উপযুক্ত উপায়ে অন্বেষণ করতে ব্যবহার করা যেতে পারে।

এই বিশেষ ক্ষেত্রে, আমি মনে করি না যে টি-এসএনই প্রতি শ্রেণীর শ্রেণিবিন্যাসকে সহায়তা করতে ব্যবহৃত হয়, এটি আপনার মডেলের স্যানিটি চেক এবং কখনও কখনও আপনি যে নির্দিষ্ট কর্পাসটি ব্যবহার করছেন তা অন্তর্দৃষ্টি খুঁজে পাওয়ার মতো। ভেক্টরগুলির সমস্যাটি আর মূল বৈশিষ্ট্যে নেই। রিচার্ড সোকার লেকচারে (উপরের লিঙ্কে) ব্যাখ্যা করেছেন যে নিম্ন মাত্রিক ভেক্টর তার নিজস্ব বৃহত্তর উপস্থাপনের সাথে পরিসংখ্যান বিতরণ ভাগ করে পাশাপাশি অন্যান্য পরিসংখ্যানগত বৈশিষ্ট্য যা ভেক্টরকে এম্বেড করে নিম্ন মাত্রায় বিশ্লেষণযোগ্যভাবে বিশ্লেষণ করে make

অতিরিক্ত সংস্থানসমূহ এবং চিত্রের উত্স:

  1. http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

  2. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F

  3. http://deeplearning4j.org/word2vec.html

  4. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F


11

পদ্ধতিগুলি সম্পর্কে আপনার ব্যাখ্যাগুলির প্রথমটি সঠিক। মুল বক্তব্যটি হ'ল এম্বেডিং অ্যালগরিদমগুলি কেবল ভিজ্যুয়ালাইজ করা নয়, মূলত পরিসংখ্যানগত ডেটা অ্যানালাইসিসের দুটি প্রধান সমস্যার সাথে লড়াই করার জন্য মাত্রিকতা হ্রাস করা , যথা ডাইমেনশনালি এবং লো-নমুনা আকারের সমস্যার অভিশাপ যাতে তারা শারীরিকভাবে বোঝা বৈশিষ্ট্যগুলি চিত্রিত করার কথা না হয় এবং তারা ডেটা বিশ্লেষণের জন্য কেবল অর্থবোধকই নয়, প্রয়োজনীয়!

প্রকৃতপক্ষে দৃশ্যায়ন এম্বেডিং পদ্ধতির প্রায় শেষ ব্যবহার। নিম্ন-মাত্রিক স্থানে উচ্চ-মাত্রিক ডেটা প্রজেক্ট করা প্রকৃত জোড়-ভিত্তিক দূরত্বগুলি (প্রধানত ইউক্লিডিয়ান এক) সংরক্ষণ করতে সহায়তা করে যা উচ্চ মাত্রায় বিকৃত হয়ে যায় বা বিভিন্ন বৈশিষ্ট্যের বৈকল্পিকতায় সজ্জিত সর্বাধিক তথ্য ক্যাপচার করে।


10

রিচার্ড হামিং এই বাক্যটির সাথে দায়ী: "গণনার উদ্দেশ্য অন্তর্দৃষ্টি, সংখ্যা নয়।" 1973 সালের এই একাডেমিক গবেষণাপত্রে (দেখুন কীভাবে বিখ্যাত ডেটা সেটটি সম্পূর্ণ ভিন্ন বলে মনে হচ্ছে তবে একই রকমের সংক্ষিপ্ত বিবরণী রয়েছে?), ফ্রান্সিস আনসকম্ব যুক্তি দিয়েছিলেন যে "ভাল পরিসংখ্যান বিশ্লেষণের জন্য গ্রাফগুলি প্রয়োজনীয়" " আনসকম্বের চৌকোটি দীর্ঘ সময়ের প্রিয়: একই পরিসংখ্যান এবং রিগ্রেশন, স্বল্প মাত্রা, তবুও খুব আলাদা আচরণ, গোলমাল, বহিরাগত, নির্ভরতা সম্পর্কিত। নীচে দেখানো দুটি মাত্রায় 11 টি মাত্রায় ডেটা প্রজেকশনটি বেশ বিভ্রান্তিকর: একটিতে পরস্পর সম্পর্ক এবং বিচ্ছুরণ রয়েছে, দ্বিতীয়টির (নীচে নীচে) হ'ল এক মিলনকারী বাদে সঠিক মিল রয়েছে। তৃতীয়টির সুস্পষ্ট সম্পর্ক রয়েছে তবে রৈখিক নয়। চতুর্থটি দেখায় যে ভেরিয়েবলগুলি একটি থ্রেশহোল্ড বাদে সম্ভাব্যভাবে সম্পর্কিত নয়।

এখানে চিত্র বর্ণনা লিখুন

ব্রুস এল ব্রাউন এট আল-র দ্বারা নির্মিত মাল্টিভারিয়েট অ্যানালাইসিসের জন্য বায়োভ্যাভইওরাল অ্যান্ড সোশ্যাল সায়েন্সেস বইটি , আমরা খুজতে পারি:

১৯৯০ সালে তাঁর "ড্রয়িং থিংস টুগেদার একসাথে" লেটোর দাবি করেছেন যে কঠোর বিজ্ঞানীদের মানসিকতা গ্রাফিক্সের সাথে এক তীব্র "আবেশ"

থ্রিডি স্পেসে সীমাবদ্ধ হোক না কেন, ছয় মাত্রিক প্লট (স্থান, রঙ, আকার এবং সময়), এমনকি দশম মাত্রার কল্পনাও করা হোক না কেন , মানুষের সীমিত দর্শনীয় স্থান রয়েছে। পর্যবেক্ষণযোগ্য ঘটনার মধ্যে সম্পর্ক: না।

অতিরিক্ত হিসাবে, মাত্রাগুলির অভিশাপটি কয়েকটি নিম্নতর মাত্রার প্যারাডক্স সহও সরবরাহ করা হয়, কয়েকটি দিতে:

এমনকি সমস্ত নিয়ম সীমাবদ্ধ মাত্রায় সমান হলেও ভেরিয়েবলের মধ্যে সম্পর্ক বিভ্রান্তিকর হতে পারে। এক স্থান থেকে অন্য স্থানের দূরত্ব সংরক্ষণের এটি একটি কারণ। এই জাতীয় ধারণাগুলি সংকেতগুলির জন্য নিম্ন মাত্রার এম্বেডিংয়ের কেন্দ্রস্থলে রয়েছে (যেমন কমপ্রেসিভ সেন্সিং এবং জনসন-লিন্ডেনস্টাউস লেমা উচ্চ মাত্রিক থেকে নিম্ন-মাত্রিক ইউক্লিডিয়ান স্থানের মধ্যে পয়েন্টের কম বিকৃতি এম্বেডিং সম্পর্কিত) বা বৈশিষ্ট্যগুলি ( শ্রেণিবিন্যাসের জন্য বিচ্ছিন্ন রূপান্তর ) ।

সুতরাং ভিজ্যুয়ালাইজেশন হ'ল ডেটাতে অন্তর্দৃষ্টি পেতে আরেকটি সহায়তা, এবং এটি মাত্রা হ্রাস সহ গণনার সাথে একসাথে চলে।

nn

পিজা বক্স প্যারাডক্স

দুটি মাত্রায়, কেন্দ্রের নীল বলটি ছোট। 3 ডি তেও। তবে খুব দ্রুত, কেন্দ্রের বলটি বেড়ে যায় এবং এর ব্যাসার্ধটি কিউবারের চেয়েও বেশি হয়ে যায়। উদাহরণস্বরূপ এই অন্তর্দৃষ্টিটি গুরুত্বপূর্ণ এন ক্লাস্টারিং।


4

বিবৃতি এবং আলোচনার ভিত্তিতে, আমি মনে করি আলাদা করার জন্য একটি গুরুত্বপূর্ণ পয়েন্ট রয়েছে। নিম্ন মাত্রিক স্থানে রূপান্তর তথ্যকে হ্রাস করতে পারে যা তথ্যকে অর্থহীন তৈরি করা থেকে আলাদা কিছু । আমাকে নীচের সাদৃশ্যটি ব্যবহার করুন:

আমাদের বিশ্বের চিত্র (2 ডি) পর্যবেক্ষণ করা একটি স্বাভাবিক অনুশীলন। একটি ভিজ্যুয়ালাইজেশন পদ্ধতি একটি উচ্চ মাত্রিক স্থান দেখতে কেবলমাত্র বিভিন্ন "চশমা" সরবরাহ করে।

একটি ভিজ্যুয়ালাইজেশন পদ্ধতি "বিশ্বাস" করার পক্ষে ভাল জিনিস হ'ল আন্তঃস্থাগুলি বোঝা। আমার প্রিয় উদাহরণটি হ'ল এমডিএস । এটা সহজ কিছু অপটিমাইজেশন টুল ব্যবহার করে আপনার নিজের এই পদ্ধতি বাস্তবায়ন করা সম্ভব (উদাহরণ আর optim )। সুতরাং আপনি দেখতে পাবেন যে পদ্ধতিটির শব্দগুলি, আপনি ফলাফলের ত্রুটিটি পরিমাপ করতে পারেন ইত্যাদি

শেষে আপনি কিছুটা নির্ভুলতার সাথে মূল ডেটার মিলের সংরক্ষণ করে একটি ছবি পাবেন। বেশি নয়, তবে কমও নয়।


4

কখনও কখনও এটি উচ্চ মাত্রিক ডেটা ভিজ্যুয়ালাইজ করা অর্থপূর্ণ কারণ এটি আমাদের পদার্থবিজ্ঞানের কথা বলতে পারে tell

জ্যোতির্বিদ্যায় কমপক্ষে একটি উদাহরণ রয়েছে যেখানে আপনি পিসিএ দ্বারা উত্পাদিত মূল উপাদানগুলির সাথে আপনার ডেটা প্রজেক্ট করেন এবং সেই মূল উপাদানগুলি ছায়াপথগুলি সম্পর্কে অনেক শারীরিক অন্তর্দৃষ্টির সাথে মিলে যায়। বিস্তারিত জানার জন্য, http://www.astroml.org/sklearn_tutorial/dimesionality_reduction.html#id2 এ শেষ চিত্রটি দেখুন

এবং কাগজ ভিতরে

http://iopscience.iop.org/article/10.1086/425626/pdf

এখানে বেসিক ধারণা। লেখকরা দূরবীণ থেকে বহু বর্ণনায় (যেমন 10,000) পিসিএ প্রয়োগ করেন। প্রতিটি বর্ণালীতে ~ 1000 টি বৈশিষ্ট্য রয়েছে। যেহেতু এই ডেটা সেটের বড় মাত্রা রয়েছে তাই এটি ভিজ্যুয়ালাইজ করা কঠিন। যাইহোক, পিসিএ থেকে প্রথম 4 উপাদান বর্ণালী সম্পর্কে অনেক পদার্থবিজ্ঞানের প্রকাশ করে (উপরের কাগজে বিভাগ 4.1-4.4 দেখুন)।


4

এখানে অন্যান্য দুর্দান্ত উত্তরের চেয়ে কিছুটা ভিন্ন পন্থা অবলম্বন করে, "সুন্দর ছবি" এক হাজার শব্দের জন্য মূল্যবান। পরিশেষে, আপনার পরিসংখ্যান এমন ব্যক্তির কাছে পৌঁছে দিতে হবে যিনি পরিসংখ্যানগতভাবে শিক্ষিত নয়, বা পুরো পরিস্থিতি উপলব্ধি করার জন্য যার কাছে সময়, আগ্রহ বা যা কিছু নেই, কেবল তার নেই। এর অর্থ এই নয় যে আমরা সেই ব্যক্তিকে বুঝতে সাহায্য করতে পারি না, কমপক্ষে একটি সাধারণ ধারণা বা বাস্তবের একটি অংশ। ফ্রেয়াকোনমিকসের মতো বইগুলি এটি করে - এটিতে গণিতের খুব কম পরিমাণ নেই, কোনও ডেটা সেট নেই এবং এখনও অনুসন্ধানগুলি উপস্থাপিত।

আর্টস থেকে, মার্শাল নে এর দিকে দেখুন রাশিয়ার রিট্রিট এ । তবুও নেপোলিয়োনিক যুদ্ধের এই বৃহত্তর রূপরেখা দুর্দান্ত অর্থ প্রদান করে এবং যুদ্ধের সবচেয়ে অজ্ঞ জ্ঞানের অধিকারী লোকদেরকে বর্বরতা, জলবায়ু, ভূ-দৃশ্য, মৃত্যু এবং সজ্জা বোঝার সুযোগ দেয় যা রাশিয়ার আক্রমণকে ঘিরে রেখেছে।

চূড়ান্তভাবে চার্টগুলি কেবল যোগাযোগ, এবং আরও ভাল বা খারাপের জন্য, মানব যোগাযোগ প্রায়শই সংঘাত, সরলীকরণ এবং ব্রেভিটির দিকে মনোনিবেশ করে।


3

দুর্দান্ত প্রশ্ন। জেমস জে। থমাস এবং ক্রিস্টিন এ কুকের "পথটি আলোকিত করার জন্য গবেষণা এবং বিকাশের এজেন্ডা" এর চতুর্থ অধ্যায়ে তথ্য উপস্থাপনা এবং ডেটা ট্রান্সফর্মেশন সম্পর্কিত আলোচনা। আমার গবেষণায় আমি পিসিএ এবং ফ্যাক্টর বিশ্লেষণের প্রসঙ্গে এই প্রশ্নটিতে পৌঁছেছি। আমার সংক্ষিপ্ত উত্তরটি হ'ল ভিজ্যুয়ালাইজেশনটি কার্যকর হয় যদি কারও কাছে ভিজ্যুয়ালাইজেশন স্পেস থেকে মূল ডেটা স্পেসে যাওয়ার জন্য ডেটা ট্রান্সফর্মেশন থাকে। এটি অতিরিক্তভাবে একটি চাক্ষুষ বিশ্লেষণ কাঠামোর মধ্যে পরিচালনা করা হবে।


অভিক্ষিপ্ত স্থান থেকে মূল স্থানটিতে ম্যাপিংয়ের অর্থটি বোধগম্য হয়। তবে, অন্য কোন ব্যবহারের মামলা আছে কি?
hlin117

আমি "আলোকিত করার পথ, ভিজ্যুয়াল অ্যানালিটিক্সের গবেষণা ও বিকাশ এজেন্ডা" এর ৪ র্থ অধ্যায়টিও দেখেছি। এটি একটি দৃশ্যমান উপস্থানে উচ্চ মাত্রিক ভিজ্যুয়ালাইজেশন সম্পর্কে কিছুই উল্লেখ করে।
hlin117
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.