ইকোনোমেট্রিক্সের জন্য পাঠ্য খনন / প্রাকৃতিক ভাষা প্রক্রিয়াজাতকরণ সরঞ্জাম ব্যবহার করা


9

আমি নিশ্চিত না যে এই প্রশ্নটি এখানে পুরোপুরি উপযুক্ত কিনা, যদি না হয় তবে দয়া করে মুছুন।

আমি অর্থনীতিতে গ্রেডের ছাত্র। এমন একটি প্রকল্পের জন্য যা সামাজিক বীমাগুলির ক্ষেত্রে সমস্যাগুলি অনুসন্ধান করে, আমার কাছে যথেষ্ট পরিমাণে প্রশাসনিক কেস রিপোর্টে (> 200 কে) অ্যাক্সেস রয়েছে যা যোগ্যতার মূল্যায়নের সাথে ডিল করে। এই প্রতিবেদনগুলি পৃথক প্রশাসনিক তথ্যের সাথে যুক্ত হতে পারে। আমি এই প্রতিবেদনগুলি থেকে পরিমাণগত বিশ্লেষণে ব্যবহার করা যেতে পারে এবং আদর্শ কী-ওয়ার্ড / রেজেক্স অনুসন্ধানগুলি grep/ awkইত্যাদি ব্যবহার করে আদর্শর চেয়ে বেশি ব্যবহার করতে পারি সেগুলি থেকে তথ্য বের করতে চাই I

প্রাকৃতিক ভাষা প্রসেসিং এর জন্য কতটা কার্যকর? অন্যান্য দরকারী পাঠ্য-খননের পদ্ধতিগুলি কী কী? আমি যা বুঝতে পেরেছি এটি থেকে এটি একটি বৃহত ক্ষেত্র, এবং সম্ভবত কয়েকটি প্রতিবেদনের একটি কর্পাস হিসাবে ব্যবহারের জন্য রূপান্তর করতে হবে। সাহিত্য এবং পদ্ধতিগুলির সাথে পরিচিত হতে কি কিছুটা সময় ব্যয় করা উচিত? এটি কি সহায়ক হতে পারে এবং এর আগেও এরকম কিছু হয়েছিল? পুরষ্কারের ক্ষেত্রে এটি কি মূল্যবান, অর্থাত্ অর্থনীতিতে একটি অভিজ্ঞতামূলক গবেষণার জন্য এনএলপি ব্যবহার করে আমি কীভাবে সম্ভাব্য দরকারী তথ্য বের করতে পারি?

কিছু প্রতিবেদন পড়তে ও প্রস্তুত করার জন্য কাউকে ভাড়া দেওয়ার জন্য সম্ভবত তহবিল রয়েছে। এটি একটি বৃহত প্রকল্প এবং আরও তহবিলের জন্য আবেদন করার সম্ভাবনা রয়েছে। কঠোরভাবে প্রয়োজন হলে আমি বিষয়টি সম্পর্কে আরও বিশদ সরবরাহ করতে পারি। একটি সম্ভাব্য জটিলতা হ'ল ভাষাটি ইংরেজি, জার্মান নয়।

যোগ্যতার বিষয়ে, আমি বেশিরভাগ একনোমেট্রিক্সে প্রশিক্ষিত, এবং হাস্টি এট আল স্তরের গণনা সংক্রান্ত পরিসংখ্যান সম্পর্কে আমার কিছু জ্ঞান আছে বই। আমি পাইথন, আর, স্টাটা জানি এবং সম্ভবত মতলবের সাথে দ্রুত পরিচিত হতে পারি। গ্রন্থাগারগুলি দেওয়া, আমি ধরে নিই পাইথন এটির জন্য পছন্দসই সরঞ্জাম। এটি প্রাসঙ্গিক হলে গুণগত পদ্ধতিতে কোনও প্রশিক্ষণ নেই, তবে আমি জানি এমন কিছু লোকের সাথে আমি যোগাযোগ করতে পারি।

আমি এটির যে কোনও ইনপুটটির জন্য খুশি, অর্থাৎ এটি যদি সম্ভাব্যভাবে কার্যকর হয়, যদি তাই হয় তবে কোথায় পড়া শুরু করতে হবে এবং বিশেষত কোন সরঞ্জামগুলিতে ফোকাস করতে হবে।


লাসো, অন্তত অ্যাঙ্গেল রিগ্রেশন এবং লজিস্টিক বিশ্লেষণ কয়েকটি সম্ভাব্য প্রাসঙ্গিক সরঞ্জাম। আপনি আমার পিএইচডি করার জন্য কীভাবে অনুরূপ সমস্যার কাছে পৌঁছেছিলেন তা আপনি পরীক্ষা করে দেখতে চাইতে পারেন might থিসিস এখানে এবং অর্থনীতিতে NLP সরঞ্জামগুলি সম্পর্কে আমার ব্লগ পোস্ট এখানে । আপনি যদি এটির সাথে কোথাও পৌঁছে যান তবে আপনার অগ্রগতি বা আপনি যে কোনও চ্যালেঞ্জের মধ্যে পড়েছিলেন তা শুনে খুব ভাল লাগবে।
গ্রেডস্টুডেন্ট

উত্তর:


2

আমি মনে করি এটি ডেটা থেকে আপনি কী তথ্য বের করতে চান তা নির্ধারণ করতে আপনার উপকার হবে। সাধারণ কীওয়ার্ড / রেজেক্স অনুসন্ধানগুলি আসলে আপনার জন্য খুব ফলদায়ক হতে পারে। আমি ইন্স্যুরেন্সে কাজ করি এবং আমরা এই ধরণের পাঠ্য খননটি প্রায়শই ঘন ঘন ব্যবহার করি - এটি তাত্ক্ষণিকভাবে নিষ্পাপ এবং স্পষ্টতই অসম্পূর্ণ, তবে আমরা সাধারণত যা আগ্রহী তা এটি তুলনামূলকভাবে ভাল শুরু (বা কাছাকাছি কাছাকাছি)।

তবে আমার মূল বক্তব্য পর্যন্ত, আপনার নির্বাচিত পদ্ধতিটি উপযুক্ত কিনা তা নির্ধারণ করার জন্য, আপনি ডেটা থেকে ঠিক কী বের করতে চান তা নির্ধারণ করার পরামর্শ দেব; এটা আমার মতে সবচেয়ে শক্ত অংশ।

সমস্ত স্ট্রিংয়ের মধ্যে অনন্য শব্দগুলি খুঁজে পাওয়া এবং শীর্ষস্থানীয় 1000 শব্দের একটি ফ্রিকোয়েন্সি করা আকর্ষণীয় হতে পারে। এটি কম্পিউটেশনালি ব্যয়বহুল হতে পারে (আপনার র‌্যাম / প্রসেসরের উপর নির্ভর করে) তবে এটি দেখতে আকর্ষণীয় হতে পারে। যদি আমি এটি সম্পর্কে খুব বেশি জ্ঞান ছাড়াই ডেটা অন্বেষণ করছিলাম তবে আমি এখান থেকেই শুরু করব (অন্যরা বিভিন্ন মতামত দিতে পারে)।

আশা করি এইটি কাজ করবে.


ধন্যবাদ, আমি অবশ্যই এই জাতীয় কিছু দিয়ে শুরু করার বিষয়ে ভাবছিলাম। আমি জানি যে আমার প্রশ্নটি অস্পষ্ট, তবে আমি অন্যান্য পদ্ধতিতে কী ধরণের তথ্য আহরণ করতে সক্ষম হব সে সম্পর্কে আমি সাধারণত আগ্রহী। আমি স্বীকার করি যে নির্দিষ্ট প্রসঙ্গে না জেনে এর উত্তর দেওয়া সম্ভব কিনা আমি নিশ্চিত নই।
ইলপ্রিন্সি

1
আমি মনে করি যে কোনও ডেটা সম্পর্কিত কাজ / পেশা নিয়ে এটি সর্বদা চ্যালেঞ্জ। আমি সম্ভবত আপনার কিছু ডেটা দেখার পরামর্শ দিচ্ছি, যদি ডেটা বা বীমা ইভেন্ট সম্পর্কিত বিবরণ সহ ভেরিয়েবল থাকে, কয়েক ডজন পড়ুন - তথ্যের জন্য অনুভূতি পান। মনে রাখবেন, আমরা সবসময় যা করার চেষ্টা করি তা হ'ল ডেটার অন্তর্নিহিত প্রক্রিয়াটির মডেল করা এবং এটিতে আপনাকে ডেটাটি জানতে হবে এমন একটি দুর্দান্ত কাজ করার জন্য।
ফ্রান্সিসকো আরসিও
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.