লিনাক্সে এমএস অফিসের নথিগুলি থেকে কীভাবে পাঠ্যটি উত্তোলন করা যায়?


18

আমার লিনাক্সের সমস্ত এমএস অফিস নথি প্রকারের (ওয়ার্ড, এক্সেল, পাওয়ারপয়েন্ট) পাঠ্য আহরণের একটি উপায় প্রয়োজন। আমি কল্পনা করি যে এটি সম্পন্ন করার জন্য বিভিন্ন ধরণের পন্থা থাকতে পারে যেমন একটি বাশ বা পাইথন স্ক্রিপ্ট, বা এগুলিকে পিডিএফে রূপান্তর করা এবং তারপরে পিডিফোটোটেক্সটের মতো একটি সরঞ্জাম ব্যবহার করে পাঠ্য বের করা।

এটি সম্ভবত একটি সাধারণ প্রয়োজন হতে পারে বলে মনে হচ্ছে। এটি সহজেই সম্পাদন করার জন্য কি কোনও প্রতিষ্ঠিত পদ্ধতি বা সরঞ্জাম রয়েছে?

উত্তর:


16

ক্যাটডক ডক, এক্সলস এবং পিপিটি টেক্সটে রূপান্তর করতে পারে। দ্বিতীয় বিকল্প wvWare হবে

আরও ব্যবহারের জন্য চেক করুন http://www.linux.com/archive/articles/52385 শব্দের টেক্সট কভার্টার এবং


Catdoc! আমি যে জিনিসটি সন্ধান করছি তা চালিয়ে যায়! এটি ওডিএফের জন্যও কাজ করবে?
Phyo আরকার লুইন

স্রেফ গুগলড হয়েছে এবং পেয়ে গেছে stosberg.net/odt2txt । এটি চেষ্টা করে না, মনে হয় এটি কাজ করে।
নাহার

শীতল ধন্যবাদ. ক্যাটডোক ঠিক আছে তবে এটি এক্সএলএস রূপান্তর করতে পারে না, পরীক্ষায় পিপিটি করতে পারে, আমি তাদের জন্য এক্সএলএস 2 সিএসভি এবং অ্যাপাচি-টিকা ব্যবহার করি। যথোপযুক্ত সৃষ্টিকর্তা!
ফায়ো আরকার লুইন

@nahar, odt2txt কেবলমাত্র বিজোড় বিন্যাসে কাজ করে, এমএস ডক না।
অ্যালেন

1
দুর্দান্ত, ক্যাটডক আমাকে সেগমেন্টেশন ত্রুটি দেয়
ফোটানাস

8

আমি শেষ পর্যন্ত ডকুমেন্ট পার্সিংয়ের জন্য উপযুক্ত সরঞ্জামটি পেয়েছি, এটি অ্যাপাচি-টিকা, এটি গাজিলিয়ন নন-টেক্সট ফর্ম্যাটগুলিকে পাঠ্যে ভাগ করতে পারে যা খুব দুর্দান্ত!

এখানে আপাচি টিকা পান:

http://tika.apache.org/

(ম্যাক হোমব্রিউ ব্যবহারকারীরা brew install tika:)

কমান্ড-লাইন ইন্টারফেসটি এইভাবে কাজ করে:

tika --text something.docx > something.txt


+1: অ্যাপাচি টিকা একটি গুরুতর ওপেন সোর্স প্রকল্প, উইন্ডোজেও কাজ করে, কমান্ড লাইন থেকে কাজ করে, এটিতে একটি জিইআইআই রয়েছে যা ড্র্যাগ এবং ড্রপ সহ, কিছু খোলে (ওয়ার্ড, এক্সেল, পাওয়ারপয়েন্ট, পিডিএফ, এসভিজি), এর মেটাডেটা বের করে পাশাপাশি নথি। উপরের বেশিরভাগ সরঞ্জাম চেষ্টা করার পরে, আপাচি টিকা যা আমি খুঁজছিলাম। এটি গ্রহণযোগ্য উত্তর হওয়া উচিত (আপনি নিজের উত্তরটি স্বীকার করতে পারবেন কিনা তা আমি জানি না)
ব্যবহারকারী 2518618

2
করেছেন, নির্লজ্জভাবে ...: ডি
Phyo আরকার লুইন

7

অ্যাবিওয়ার্ড কমান্ডলাইন থেকে যে কোনও ফাইল ফর্ম্যাটের সাথে এটি জানে রূপান্তর করতে পারে।

শব্দ থেকে সরল পাঠ্যে রূপান্তর করুন:

abiword --to=txt myfile.doc

একটি ওয়ার্ড ফাইল থেকে একটি পিডিএফ করুন:

abiword --to=pdf myfile.doc

ইত্যাদি। এই ক্ষেত্রে ফলাফলগুলি myfile.txt বা myfile.pdf হবে। আপনি যদি আউটপুট নামটি নির্দিষ্ট করতে চান তবে আপনি এটিও করতে পারেন:

abiword --to=txt --to-name=output.txt myfile.doc

ODT কে কথায় রূপান্তর করুন:

abiword --to=doc myfile.odt

শব্দকে ওডিতে রূপান্তর করুন:

abiword --to=odt myfile.doc

অন্যান্য উত্তরের ক্ষেত্রে ন্যায়বিচারে, এটি লক্ষ করা উচিত যে ওয়ার্ড ডকুমেন্টগুলি হ্যান্ডেল করতে আবি ওয়ার্ড ডাব্লুভিওয়্যার ব্যবহার করে, তবে ডাব্লুভিওয়্যার হোমপেজে বেশিরভাগ রূপান্তরগুলির পরিবর্তে অ্যাবিওয়ার্ড ব্যবহার করার পরামর্শ দেয়।

আমি ওয়ার্ড প্রসেসরকে ঘৃণা করি। আমার অ্যাবিওয়ার্ড ইনস্টল করার মূল কারণ এটি।

আপনি ইউনোকভ- এও আগ্রহী হতে পারেন , এটি ওপেনঅফিস জানেন যে একই ধরণের সরঞ্জাম সমর্থনকারী ফর্ম্যাটগুলি (যার মধ্যে স্প্রেডশিট এবং এর মতো থাকবে) তবে ব্যক্তিগতভাবে এর সাথে আমার কোনও অভিজ্ঞতা নেই।


.ডোক্স ডকুমেন্টের জন্য এটি গণ্ডগোল: এস। কিন্তু ডক জন্য দুর্দান্ত সমাধান
ওয়ারফেস

3

LibreOffice দিয়ে আপনি এটি করতে পারেন:

libreoffice --invisible --convert-to pdf file1.ppt file2.ppt

4
আপনি টেক্সট রূপান্তর করতে পাঠ্য ফিল্টারটি ব্যবহার করতে পারেন: লাইব্রোফাইস
ইনভিজিবল

0

আপনি সিডিপিএস (ভার্চুয়াল প্রিন্টার) এবং এলডি ব্যবহার করে ব্যবহার করতে পারেন ।


আকর্ষণীয়, যে কোনও মুদ্রণযোগ্য স্টাফ পিডিএফ রূপান্তর করতে পারেন? আপনি কি আমাকে নির্দেশ করতে পারেন এবং দস্তাবেজ বা এক্সএলএস এর জন্য এটি করার উদাহরণ?
Phyo আরকার লুইন

0

ডাব্লুভিআই একটি বিকল্প এবং আইআইআরসি ওপেনঅফিসকে পিডিএফ হিসাবে এক্সপোর্ট করতে এবং কমান্ড লাইন থেকে বলা যেতে পারে।


ইউনোকনভটি ওপেন অফিস-সম্পর্কিত সরঞ্জাম বলে মনে হচ্ছে যা আমি মনে করতে পারি নি।
পিটিম্যান 11


0

1. ডক ক্যাটডোক বা ডক ফাইলের রূপান্তর করার জন্য অ্যান্টিওয়ার্ড আপনি নীচের কমান্ড ক্যাটডোক ফাইল.ডোক> ফাইল বা অ্যান্টিওয়ার্ড ফাইল.ডোক> ফাইলটি ব্যবহার করতে পারেন

  1. docx2xxt

  2. pdf emacs file.pdf ctrl-x ctrl-s ফাইল


(1) ক্যাটডোক একটি উত্তরে প্রস্তাবিত হয়েছিল যা প্রশ্নের তিন ঘন্টা আগে পোস্ট করা হয়েছিল, প্রায় তিন বছর আগে। কেন আপনি এটি পুনরাবৃত্তি করছেন? (২) এন্টিওয়ার্ড কোথায় পাওয়া যাবে? (3) আপনার উত্তরের নীচের অর্ধেকটির অর্থ কী?
স্কট

-1

ডকসপ্লিট হ'ল পিডিএফ থেকে পাঠ্য উত্তোলনের উপযুক্ত সরঞ্জাম। এটি একটি রুবি রত্ন। সুতরাং ডকস্প্লিট কমান্ডটি ব্যবহার করার আগে আপনার লিনাক্স সিস্টেমে রুবি এবং রত্নটি ইনস্টল করা উচিত।

আপনার সিস্টেমে রুবি এবং রত্ন না থাকলে দয়া করে নির্দেশটি অনুসরণ করুন follow

সফ্টওয়্যারটি ইনস্টল করার জন্য আপনাকে অবশ্যই মূল হতে হবে (ধরে নিচ্ছেন আপনি এটি সমস্ত ব্যবহারকারীর কাছে উপলব্ধ হতে চান)।

লিনাক্সে রুবি
ইনস্টল করুন : ইয়াম ইনস্টল রুবি রত্নটি ইনস্টল করুন, দয়া করে সর্বশেষতম রত্ন প্যাকেজটি ডাউনলোড করুন, তারপরে নির্দেশ অনুসরণ করুন

tar xzf rubygems-xxxx.tgz
সিডি রুবিজেমস-
এক্সএক্সএক্সএক্সএক্স রুবি সেটআপ.আরবি

এখন রুবিগেমস ইনস্টল হওয়া আপনার জহর কমান্ড থাকা উচিত (রুবিগেমস প্যাকেজ সিস্টেমের সাথে ইন্টারেক্ট করার জন্য রত্নটি হ'ল আদেশ)। এটি চালিয়ে পরীক্ষা করে দেখুন:

রত্ন তালিকা

এখন, ডক্সস্প্লিট রত্ন ইনস্টল করতে, পরবর্তী পদক্ষেপে যান, দয়া করে নীচের সাইটটিতে যান। http://documentcloud.github.com/docsplit/


এটি ওপি যা চেয়েছিল তার ঠিক বিপরীত।
কার্লএফ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.