ব্যাচ .doc ফাইলগুলিকে .txt (সরল ascii পাঠ্য) এবং / অথবা .html পুনরাবৃত্তভাবে ফোল্ডার এবং সাবফোল্ডার, উইন্ডোজ এবং ম্যাকে রূপান্তর করে?


2

এটি করার কোনও সরঞ্জাম আছে কি? আমি ওপেনঅফিসটি স্বয়ংক্রিয় করতে কিছু পাইথন / জাভা সরঞ্জাম দেখেছি কিন্তু একাধিক ফাইল করার জন্য যে কেউ এটির জন্য নির্ভরযোগ্যভাবে স্ক্রিপ্ট করেছে এবং এর মধ্যে একটি ফোল্ডার / ডিরেক্টরি ট্রিতে। ডক ফাইলের মাধ্যমে পুনরুদ্ধার করে, পরবর্তী রূপান্তরিত .txt এবং .html ফাইল স্থাপন করে তার অবস্থানের মূল ফাইলটিতে।

উত্তর:


3

লিনাক্স / ইউনিক্স

দুটি ইউনিক্স সরঞ্জাম রয়েছে যা আমি জানি:

  • catdoc
  • antiword

আপনি কেবল findপুনরাবৃত্তভাবে ফোল্ডারটি দিয়ে যেতে ব্যবহার করতে পারেন

find . -name "*.doc" -exec <command> {} \;

কোথায় <command>একটি .txt ফাইলে .doc ফাইল রূপান্তর করতে ব্যবহার হয় যথাযথ ব্যবস্থা হয় catdocবা antiword

ম্যাক ওএস এক্স

আপনি একই সরঞ্জামগুলি ব্যবহার করতে পারেন, তবে আপনাকে সেগুলি ইনস্টল করতে হবে, উদাহরণস্বরূপ, হোমব্রিউ । এটি করতে, টার্মিনালে প্রবেশ করুন:

ruby -e "$(curl -fsSL https://gist.github.com/raw/323731/install_homebrew.rb)"

এবং তারপর:

brew install catdoc
brew install antiword

সমাধানের জন্য +1। প্রশ্ন হিসাবে উইন্ডো বা ম্যাক দয়া করে তবে আমার উবুন্টুও রয়েছে তাই আপনার সমাধানটি ব্যবহার করতে সক্ষম হবেন আশা করি। আমি এটি সন্ধান করব, চেষ্টা করে দেখুন এবং যদি এটি কার্যকর হয় তবে আমি আপনার উত্তরটি গ্রহণ করব। ধন্যবাদ।
থাইরোউইউকান

1
আমি পোস্টে ওএস এক্সের জন্য ইনস্টলেশন সংক্রান্ত নির্দেশাবলী যুক্ত করেছি। আমি <command>এখনও অংশটি চেষ্টা করে দেখিনি, তবে আপনার যদি কোনও সমস্যা হয় তবে আমি এটি সন্ধান করতে পারি।
ছিটিয়ে দিন

1

@ স্ল্যাক আপনার সমাধানটি প্রায় কাজ করে তবে আউটপুটটি সমস্ত ফাইল একসাথে একসাথে প্রদর্শন / STDOUT এর জন্য হয়। আউটপুট হিসাবে আমার স্বতন্ত্র .txt ফাইল দরকার। কারণ হ'ল আমরা আউটপুটে ফাইলের জন্য অ্যাকাউন্টিং করছি না।

কোনও ফোল্ডার হায়ারার্কি অতিক্রম করার আশেপাশে কাজ করার জন্য যদি আমি * .ডোকের জন্য উইন্ডোজ অনুসন্ধান ব্যবহার করি এবং তারপরে ফলাফলগুলি একটি ফোল্ডারে কপি করে সমস্তগুলি একত্রে ফোল্ডারে রেখে দিতে পারি, তবে আমি উবুন্টুতে বুট করতে পারি এবং নিম্নলিখিতটি চালাতে পারি।

(আমার কাছে কোথাও কোথাও একটি ফাইল / ফোল্ডার পুনরাবৃত্তির কোড রয়েছে যা আমি খনন করব এবং সময় হলে পরে যুক্ত করব now) তবে আপাতত কেবল উপরের মতো ফাইল হায়রাচি সমতল করা যথেষ্ট ভাল।

যাইহোক, ক্যাটডোক এন্টিওয়ার্ডের চেয়ে আরও ভাল কাজ করে কারণ এন্টিওয়ার্ড অভিযোগ করে যে কিছু ফাইল ওয়ার্ড ডকস নয়, এটি ডক্টরের মধ্যে ফ্রেম হিসাবে সংগঠিত টেক্সটের ব্লকিং এবং ব্লকযুক্ত .ডোক ফাইল হতে পারে। ক্যাটডোক আমার সমস্ত ডক্সকে রূপান্তরিত করে।

#!/usr/bin/perl -w

 use File::Basename;

 my $okFiles = "";
 my $couldntGet = "";

 @files = <*>;
 foreach $file (@files) 
 {
   if ( $file =~ m/\.doc/ )
   { 
     my ( $filenameOnly, $dir, $ext ) = fileparse($file, qr/\.[^.]*/);
     if ( ( defined $filenameOnly ) && ( defined $ext ) )
     {
       $okFiles .= "file: ".$file." filename only:".$filenameOnly." extension:".$ext."\n";

       system( "catdoc \"".$file."\" > \"".$filenameOnly.".txt\"" );
     }
     else
     {
       $couldntGet .= "*file: ".$file." - couldn't get filename only and extension\n";
     }
   }

   print $okFiles;

   print $couldntGet;
 } 

0

ক্যাটডোক এবং অ্যান্টিওয়ার্ডের খুব সীমিত ফাইল ফর্ম্যাট সমর্থন রয়েছে, তারা যে সর্বশেষতম সংস্করণটি বুঝতে পারে তা ওয়ার্ড 2000।

আমি জানি আপনি LibreOffice কে স্ক্রিপ্ট করতে পারেন এমন কোনও ফাইলকে এটি পাঠ্য বা পিডিএফ রূপান্তর করতে পারবেন (মিডিয়াগোব্লিন এটিই করে) তবে কীভাবে করতে হবে তা আমি জানি না।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.