همیشه امکان استخراج متن از یک فایل PDF با استفاده از کپی معمول وجود ندارد. اغلب صفحات این اسناد محتویات اسکن شده در نسخه های کاغذی خود را دارند. برای تبدیل چنین فایل ها به داده های متن به طور کامل قابل ویرایش، برنامه های ویژه ای با عملکرد تشخیص نوری (OCR) مورد استفاده قرار می گیرند.
چنین راه حل هایی برای اجرای بسیار دشوار است و به همین دلیل هزینه زیادی را صرف می کنند. اگر به طور منظم باید متن را با PDF به رسمیت بشناسید، بهتر است که برنامه مناسب را خریداری کنید. برای موارد نادر، استفاده از یکی از خدمات آنلاین موجود با توابع مشابهی منطقی تر است.
محتوا
البته، ویژگی های سرویس های آنلاین OCR در مقایسه با راه حل های کامل دسکتاپ محدود است. اما شما می توانید با این منابع به صورت رایگان یا برای هزینه اسمی کار کنید. نکته اصلی این است که برنامه های کاربردی مربوطه با کار اصلی خود، یعنی به رسمیت شناختن متن، نیز مقابله می کنند.
شرکت توسعه خدمات یکی از رهبران در زمینه تشخیص سند نوری است. ABBYY FineReader برای ویندوز و مک یک راه حل قدرتمند برای تبدیل PDF به متن و کار با آن است.
البته، هماهنگی وب از این برنامه، در عملکرد کم است. با این وجود، سرویس می تواند متن را از اسکن و عکس در بیش از 190 زبان تشخیص دهد. پشتیبانی از تبدیل فایلهای PDF به اسناد کلمه ، اکسل و غیره
ABBYY FineReader آنلاین سرویس آنلاین
این سرویس، احتمالا توسط الگوریتم های دقیق تر به رسمیت شناختن متن بر روی تصاویر و فایل های PDF مشخص می شود. اما، متاسفانه، استفاده رایگان آن محدود به پنج صفحه پردازش شده در هر ماه است. برای کار با اسناد با حجم زیاد، شما مجبور به خرید یک سال اشتراک هستید.
با این حال، اگر عملکرد OCR بسیار به ندرت مورد نیاز است، ABBYY FineReader Online یک گزینه عالی برای استخراج متن از فایل های PDF کوچک است.
خدمات ساده و راحت برای دیجیتالی کردن متن. بدون نیاز به ثبت نام، این منبع به شما اجازه می دهد تا 15 صفحه PDF کامل را در ساعت تشخیص دهید. Free Online OCR به طور کامل با اسناد در 46 زبان کار می کند و بدون مجوز پشتیبانی از سه فرمت صادرات متن - DOCX، XLSX و TXT.
هنگام ثبت نام، کاربر قادر به پردازش اسناد چند صفحه ای است، اما تعداد رایگان این صفحات به 50 واحد محدود می شود.
سرویس آنلاین رایگان آنلاین OCR
برای کاربران مجاز، توالی اقدامات تا حدودی متفاوت است.
اگر شما نیاز به استخراج متن از یک سند PDF کوچک دارید، می توانید با استفاده از ابزار فوق توضیح دهید. برای کار با فایل های بزرگ، شما مجبور به خرید علامت های اضافی در Free Online OCR و یا استفاده از راه حل دیگری.
سرویس کاملا رایگان OCR که به شما اجازه می دهد متن را از تقریبا هر اسناد گرافیکی و الکترونیکی مانند DjVu و PDF استخراج کنید. این منابع محدودیت های اندازه و تعداد فایل های قابل تشخیص را اعمال نمی کند، نیازی به ثبت نام ندارد و طیف وسیعی از توابع مرتبط را ارائه می دهد.
NewOCR از 106 زبان پشتیبانی می کند و قادر است به درستی اسکن اسناد حتی با کیفیت پایین را اداره کند. این امکان وجود دارد که به صورت دستی منطقه ناشناخته متن را در صفحه فایل انتخاب کنید.
این ابزار مناسب است و همه کاراکترها را به اندازه کافی با کیفیت بالا تشخیص می دهد. با این حال، پردازش هر صفحه سند PDF وارد شده باید به طور مستقل راه اندازی شود و در یک فایل جداگانه نمایش داده شود. البته می توانید بطور فوری نتایج تشخیص را به کلیپ بورد کپی کنید و آنها را با دیگران ادغام کنید.
با این وجود، با توجه به تنوع بالا، حجم زیادی از متن با استفاده از NewOCR برای استخراج بسیار دشوار است. سرویس با فایل های کوچک "با بمب" مقابله می کند.
یک منبع ساده و قابل فهم برای دیجیتالی کردن متن به شما امکان می دهد تا اسناد PDF را شناسایی کرده و نتیجه را به فایل TXT منتقل کنید. محدودیت تعداد صفحات وجود ندارد. تنها محدودیت این است که اندازه سند ورودی نباید بیش از 5 مگابایت باشد.
اگر شما فقط نیاز به استخراج متن از PDF دارید و قالب بندی نهایی مهم نیست، OCR.Space انتخاب خوبی است. تنها سند باید "تک تک" باشد، زیرا شناخت دو یا چند زبان در یک زمان در سرویس ارائه نشده است.
همچنین ببینید: تجزیه و تحلیل آزاد از FineReader
با ارزیابی ابزارهای آنلاین ارائه شده در مقاله، باید توجه داشت که ABBYY FineReader Online دقیق تر و دقیق تر عملکردهای OCR را مدیریت می کند. اگر حداکثر دقت تشخیص متن برای شما مهم باشد، بهتر است این گزینه را در نظر بگیرید. اما برای پرداخت آن، به احتمال زیاد، نیز باید.
اگر شما نیاز دارید که اسناد کوچک را دیجیتالی کنید و آماده باشید که خودتان خطاهای خود را در این سرویس اصلاح کنید، بهتر است از NewOCR، OCR.Space یا Free OCR آنلاین استفاده کنید.