একাডেমিক তথ্যসূত্রগুলিতে উদ্ধৃতি পাঠের স্বয়ংক্রিয়ভাবে পার্সিং


18

এমন কোনও সফ্টওয়্যার (বা সিউডো কোড) আছে যা কোনও পাঠ্যের টুকরোটি স্বয়ংক্রিয়ভাবে স্ক্যান করতে পারে (হয় সরঞ্জামটিতে আটকানো হয়, বা একটি .doc / .pdf থেকে পড়তে পারে) এবং মানক ফর্ম্যাটগুলি ব্যবহার করে উদ্ধৃতি ডেটা সনাক্ত করতে পারে? এরপরে ডেটাটি তার উপাদান ক্ষেত্রগুলিতে বিভক্ত হয়ে এক্সএমএল, সিএসভি বা অন্য কোনও কাঠামোগত ডেটা ফর্ম্যাটে রফতানি হবে। আমি সিবি 2 বিবের দিকে নজর রেখেছি তবে এটি কেবল হার্ভার্ড-স্টাইলের রেফারেন্স থেকে বছরটি বের করতে সক্ষম হয়েছিল, এটি অপর্যাপ্ত।


আপনি কি টেক্সটটি নিজেই স্ক্যান করতে চান বা কেবল রেফারেন্স বিভাগে?
innaM

কেবলমাত্র উল্লেখগুলি - এটি সম্ভবত ব্যক্তিগত প্রকাশনা সহ একটি দস্তাবেজ হবে।
এলিস্টায়ার নক

আপনার যা প্রয়োজন হতে পারে তা আমি নিশ্চিত নই তবে আপনি এই refhive.com
মোস্তফা এলমোগাজি

উত্তর:


4

উদ্ধৃতি পার্সারগুলির এই তালিকাটি একবার দেখুন যা ইনপুট পাঠ্য থেকে এক্সএমএল তৈরি করতে পারে:

http://freecite.library.brown.edu
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit (আগস্ট 1, 2012 হিসাবে রক্ষণাবেক্ষণ মোডে)
http: // opcit.eprints.org http://search.cpan.org/~mjewell/Biblio- উদ্ধৃতি- পার্সার-1.10

ফ্রিসাইট সহ আপনি curlনিম্নোক্ত (পিএইচপি তে) উদ্ধৃতি জমা দেওয়ার জন্য একটি আদেশ ব্যবহার করতে পারেন :

$cmd = "curl -H 'Accept: text/xml' -d \"" . $myinput . "\" http://freecite.library.brown.edu/citations/create";
$xmloutput = exec( $cmd );

আর একটি বিকল্প github.com/inspirehep/refextract । এটি এমএল ভিত্তিক নয় তবে এটি আমার পরীক্ষাগুলিতে খুব ভালভাবে কাজ করেছে।
জোসির

3

এই মুহুর্তে (2017) সর্বাধিক সক্রিয় ওপেন সোর্স প্রকল্প এটি প্রয়োগ করে মনে হচ্ছে যেকোনস্টাইল পার্সার (শেষ সংস্করণ 07-2016)। এটি কোনও ওয়েব-ইন্টারফেস, এপিআই, বা রুবিগেম হিসাবে ডাউনলোডের মাধ্যমে ব্যবহার করা যেতে পারে।

তারা তাদের ওয়েবসাইটে স্পষ্টভাবে উল্লেখ করেছে যে বাস্তবায়নটি পার্সকিট (শেষ সংস্করণ 2013?) এবং ফ্রিসাইট (শেষ প্রতিশ্রুতিবদ্ধ 2009) দ্বারা অনুপ্রাণিত হয়েছে।

এছাড়াও তাদের ওয়েবসাইট গঠন:

যেকোন স্টাইল পার্সার শর্তসাপেক্ষ র্যান্ডম ক্ষেত্রগুলির উপর ভিত্তি করে শক্তিশালী মেশিন লার্নিং হিউরিস্টিক্স ব্যবহার করে যা আমাদের বিল্ট-ইন সম্পাদক ব্যবহার করে প্রত্যেকে প্রশিক্ষণ নিতে পারে।

এটি একটি বাস্তব শীতল বৈশিষ্ট্য, এটি এটিকে সবচেয়ে আকর্ষণীয় বাস্তবায়ন করে তোলে (ইমো)। প্রশিক্ষণটি এপিআই ডকুমেন্টেশনে যেমন ব্যাখ্যা করা হয়েছে তেমন সোজা বলে মনে হচ্ছে । আপনি কেবল কয়েকটি ম্যানুয়ালি সংশোধন করা ফলাফল সরবরাহ করুন এবং Anystyle.parser.trainকমান্ডটি চালান । পার্সসিট এবং ফ্রিসাইটও এটিকে সমর্থন করে কিনা আমি নিশ্চিত নই, তবে তারা যদি তা না করে তবে এটি আমার কাছে একটি বিশাল বৈশিষ্ট্য-পার্থক্যের মতো বলে মনে হচ্ছে।


অ্যানস্টাইল পার্সার বাদে তারা সকলেই বর্তমানে সর্বাধিক ভোট প্রাপ্ত উত্তরে উল্লেখ করা হয়েছে। আসলে কী তাদের দাঁড় করায়? মূল প্রশ্নটি দেওয়া কি সুবিধা বা অসুবিধা হবে?
শেঠ

আহ, সত্যিই। আমি আমার উত্তরটি সম্পাদনা করব এবং উন্নতি করব। যে নির্দেশক জন্য Thx।
ওয়াউটার

মনে হচ্ছে এখন মারা গেছে।
বিশেষজ্ঞ

1
: @Brandon: আমি এখানে একটি হাওটুর পোস্ট করেছেন github.com/inukshuk/wapiti-ruby/issues/3
Wouter

1
দারুণ লাগছে, ধন্যবাদ! যে কখনও রুবি স্পর্শ করেনি, এটি সত্যিই খুব সহায়ক হবে।
ব্র্যান্ডন

2

রেজেক্স বাডি বা এক্সপ্রেসোর মতো কোনও সরঞ্জাম চেষ্টা করে দেখুন ।

আপনি যদি প্রোগ্রামার না হন তবে নিয়মিত এক্সপ্রেশনগুলি কিছুটা ভয় দেখানোর মতো হতে পারে তবে তারা সত্যই এতটা কঠিন নয়, বিশেষত উপরেরগুলির মতো একটি শালীন সরঞ্জাম সহ।

এখানে উদ্ধৃতি প্রত্যাহারের জন্য কেউ নিয়মিত এক্সপ্রেশন ব্যবহার করার একটি উদাহরণ:

উদ্ধৃতি নিয়মিত অভিব্যক্তি পার্সিং


1

মেন্ডলেলে এটি করতে সক্ষম হওয়া উচিত। এটি পিডিএফ আমদানি করতে পারে এবং তারপরে বিবিটেক্স, আরআইএস এবং এন্ডনোট এক্সএমএলে মেটাডেটা রফতানি করতে পারে। এটি ডাউনলোড করতে নিখরচায় এবং ক্রস প্ল্যাটফর্ম।

সম্পাদনা: আমি কয়েকটি নথিতে এটি পরীক্ষা করেছি। পিডিএফ আমদানি উল্লেখযোগ্যভাবে উল্লেখ করা যায় যা সঠিকভাবে ফর্ম্যাট করা হয়েছে। LaTeX ব্যবহার করে তৈরি করা একটি নথির জন্য, লেখকের সাথে সমস্ত উল্লেখ "স্মিথ, জে" আকারে বা "জে। স্মিথ" ইত্যাদি সূক্ষ্ম আমদানি করা হয়েছিল। লেখক যদি কোনও সংস্থা (একক শব্দ) হয়, বা রেফারেন্সটি অসম্পূর্ণ থাকে তবে এটি কাজ করে না। নিষ্ক্রিয় রেফারেন্সগুলি সহজেই সম্পাদনা এবং বিবিটেক্সে রফতানি করা যায় can


2
"এই বৈশিষ্ট্যটি মেন্ডেলি ০.৯..7 এ অপসারণ করা হয়েছে কারণ এটি পর্যাপ্ত পরিমাণের সংস্থান না করে যথেষ্ট পরিমাণ সংস্থান (গ্রাহক এবং সার্ভার সাইড) ব্যয় করছিল। আমরা ভবিষ্যতে এটি একটি উন্নত আকারে পুনরায় চালু করার পরিকল্পনা করছি।" ...... feedback.mendeley.com/forums/4941-mendeley-feedback/suggestions/...
বরফ মানব

1

আমি একটি ওয়েস্টলা প্রোগ্রাম দেখেছি আইনী উদ্ধৃতি দেওয়ার জন্য, তবে সম্ভবত আপনি যা খুঁজছেন তা তা নয়। রেফারেন্স ম্যানেজার একাডেমিক ফর্ম্যাটগুলির জন্য এমন কিছু করতে পারে তবে আমি এটি কখনও ব্যবহার করি নি।


1

ব্যবহার করে দেখুন http://www.crossref.org/guestquery/#stqsearch

এইটি আপনার রেফারেন্স পাঠ্যকে স্বয়ংক্রিয়ভাবে বিশ্লেষণ করতে সক্ষম এবং একটি অন-লাইন নিবন্ধের লিঙ্ক সরবরাহ করে।


0

জোটেরো ফায়ারফক্সের জন্য একটি প্লাগইন যা ওয়েব সামগ্রীতে এটি করে। নথি / পিডিএফএসের জন্য অনুরূপ কোনও সরঞ্জাম আছে কিনা তা নিশ্চিত নন


1
আমি জানি যে এটি জোটেরোর জন্য নকশাকৃতভাবে ঠিক করা হয়নি তবে আপনি যদি ফায়ারফক্সকে প্রাসঙ্গিক ডেটা সহ কোনও পাঠ্য ফাইল বা এইচটিএমএল ফাইলের দিকে নির্দেশ করেন তবে জোটেরো উল্লেখগুলি সনাক্ত করতে পারে এবং তারপরে আপনি এটি জোটেরোর লাইব্রেরিতে যুক্ত করতে এবং রফতানি রফতানি করতে পারেন আপনার পছন্দসই বিন্যাসে পুরো গ্রন্থাগারটি (আমি জানি জোটেরো একগুচ্ছ বিন্যাসকে সমর্থন করে)। যদিও এটি প্রচুর ফাইলের জন্য বেদনাদায়ক হবে।

ওপি জিজ্ঞাসা কী করে জোটেরো কী করে তা আমি দেখছি না। আমি এটি ইনস্টল করেছি, তবে মনে হচ্ছে কোনও রেফারেন্স বিশ্লেষণের কোনও বিকল্প নেই।
রিক্কি

জোটেরো নিয়মিত পাঠ্য থেকে নয়, বিশেষভাবে কোডেড ওয়েবসাইটগুলি থেকে উদ্ধৃতিগুলি পার্স করে।
ওচাদো

0

এটি সম্ভবত @ অভিনব-এর একটি মন্তব্য হিসাবে আরও বেশি অন্তর্ভুক্ত, তবে জোটেরো অবশ্যই নিশ্চিতভাবে কেবল কাঠামোগত ডেটা পরিচালনা করে, আপনি এখানে বর্ণিত হিসাবে দেখতে পাবেন:

http://www.zotero.org/support/getting_stuff_into_your_library#importing_records_from_other_reference_tools

একটি আকর্ষণীয় হ্যাক হতে পারে এমন একটি প্রোগ্রাম লেখার চেষ্টা করা যা আপনার প্রিয় ডেটাবেজে অনুসন্ধানের প্রশ্ন হিসাবে প্রতিটি উদ্ধৃতি ব্যবহার করে, তারপরে রেফ তথ্য উত্পন্ন করতে জোটেরোর মতো কিছু ব্যবহার করে। আপনি সিটিউইকের মতো পরিষেবাদি থেকে কাঠামোগত তথ্যও ডাউনলোড করতে পারেন। আপনি যদি এমন কিছু করেন তবে আমাকে জানান! (আপনি যদি এটি করেন তবে এটি গিথুবে রাখুন;)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.