Rekoni tekston en PDF-dosiero interrete

Pin
Send
Share
Send


Malproksime de ĉiam eblas ĉerpi tekston el PDF-dosiero per regula kopiado. Ofte la paĝoj de tiaj dokumentoj estas skanataj enhavoj de iliaj paperaj versioj. Por konverti tiajn dosierojn al tute redakteblaj tekstaj datumoj, specialaj programoj kun la funkcio Optical Character Recognition (OCR) estas uzataj.

Tiaj decidoj estas tre malfacile efektivigeblaj kaj tial kostas multan monon. Se vi bezonas regule rekoni tekston el PDF, tre konsilas aĉeti la taŭgan programon. Por maloftaj kazoj, estos pli logike uzi unu el la disponeblaj interretaj servoj kun similaj funkcioj.

Kiel rekoni tekston de PDF interrete

Kompreneble, la gamo de retaj servoj pri OCR, kompare kun plenaj labortablaj solvoj, estas pli limigita. Sed vi povas ankaŭ labori kun tiaj rimedoj senpage aŭ por nominala prezo. La ĉefa afero estas, ke kun ilia ĉefa tasko, nome kun rekono de tekstoj, la respondaj retaj aplikoj same traktas.

Metodo 1: ABBYY FineReader Rete

La servo-disvolva kompanio estas unu el la gvidantoj en la kampo de optika dokumenta agnosko. ABBYY FineReader por Vindozo kaj Mac estas potenca solvo por konverti PDF al teksto kaj plue labori kun ĝi.

La aranea analogo de la programo kompreneble estas malsupera al ĝi funkcie. Tamen la servo povas rekoni tekston de skaniloj kaj fotoj en pli ol 190 lingvoj. Konverti PDF-dosierojn al Word, Excel, ktp.

Interreta Interreta Servo de ABBYY FineReader

  1. Antaŭ ol komenci eklabori kun la ilo, kreu konton en la retejo aŭ ensalutu per via konto Facebook, Google aŭ Microsoft.

    Por iri al la rajtiga fenestro alklaku la butonon "Enirejo" en la supra menuo-stango.
  2. Post ensaluto, importu la deziratan PDF-dokumenton al FineReader per la butono "Alŝutu dosierojn".

    Tiam alklaku "Elektu paĝnumerojn" kaj precizigu la deziratan intervalon por teksta agnosko.
  3. Tuj poste, elektu la lingvojn ĉeestantajn en la dokumento, la formaton de la rezulta dosiero, kaj alklaku la butonon “Rekoni”.
  4. Post prilaborado, kies daŭro dependas tute de la volumo de la dokumento, vi povas elŝuti la finitan dosieron kun tekstaj datumoj simple alklakante ĝian nomon.

    Aŭ, eksportu ĝin al unu el la disponeblaj nubaj servoj.

La servo probable distingiĝas per la plej precizaj algoritmoj pri rekono de tekstoj pri bildoj kaj PDF-dosieroj. Sed bedaŭrinde ĝia senpaga uzo estas limigita al kvin paĝoj prilaboritaj ĉiumonate. Por labori kun pli volumenaj dokumentoj, vi devos aĉeti jaran abonon.

Tamen, se OCR malofte bezonas, ABBYY FineReader Online estas bonega eblo por ĉerpi tekston el malgrandaj PDF-dosieroj.

Metodo 2: Senpaga Interreta OCR

Simpla kaj konvena servo por ciferecigi tekston. Sen registriĝo, la rimedo permesas rekoni 15 plenajn PDF-paĝojn hore. Senpaga Interreta OCR plene funkcias per dokumentoj en 46 lingvoj kaj sen rajtigo subtenas tri tekstajn eksportajn formatojn - DOCX, XLSX kaj TXT.

Kiam vi registras, la uzanto havas la ŝancon procesi plurpaĝajn dokumentojn, sed la senpaga nombro de ĉi tiuj samaj paĝoj estas limigita al 50 ekzempleroj.

Senpaga Interreta Interreta Interreta Servo

  1. Por rekoni la tekston el PDF kiel "gasto", sen rajtigo pri la rimedo, uzu la taŭgan formon sur la ĉefa paĝo de la retejo.

    Elektu la deziratan dokumenton per la butono Dosiero, precizigu la ĉefan lingvon de la teksto, la elira formato, kaj atendu la ŝarĝon kaj alklaku la dosieron Konverti.
  2. Fine de la cifereca procezo, alklaku "Elŝutu la eligodosieron" por konservi la finitan dokumenton kun teksto en la komputilo.

Por rajtigitaj uzantoj, la vico de agoj estas iom malsama.

  1. Uzu la butonon "Registrado""Enirejo" en la supra menuo-baro por sekve krei Senretan Interretan OCR-konton aŭ ensaluti ĝin.
  2. Post rajtigo en la rekona panelo, tenu la ŝlosilon CTRL, elektu ĝis du lingvojn de la fontdokumento el la listigita.
  3. Specifu pliajn eblojn por ĉerpi tekston el PDF kaj alklaku Elektu dosieron alŝuti dokumenton al la servo.

    Poste, por komenci rekonon, alklaku Konverti.
  4. Fine de pretigo de la dokumento, alklaku la ligon kun la nomo de la eligodosiero en la responda kolumno.

    La agnoska rezulto estos tuj konservita en la memoro de via komputilo.

Se vi bezonas ĉerpi tekston el malgranda PDF-dokumento, vi povas sekure uzi la ĉi-supran ilon. Por labori kun volumenaj dosieroj, vi devos aĉeti pliajn signojn en Senpaga Interreta OCR aŭ uzi alian solvon.

Metodo 3: NovaOCR

Tute senpaga OCR-servo, kiu ebligas ĉerpi tekston el preskaŭ ajnaj grafikaj kaj elektronikaj dokumentoj kiel DjVu kaj PDF. La rimedo ne trudas limigojn al la grandeco kaj nombro de agnoskitaj dosieroj, ne bezonas registradon kaj ofertas ampleksan gamon da rilataj funkcioj.

NewOCR subtenas 106 lingvojn kaj povas ĝuste prilabori eĉ malaltkvalitajn dokumentajn skanadojn. Eblas permane elekti la areon por teksta agnosko sur la dosierpaĝo.

Interreta Servo de NewOCR

  1. Do, vi povas komenci labori kun rimedo tuj, sen la bezono plenumi nenecesajn agojn.

    Ĝuste sur la ĉefpaĝo ekzistas formularo por importi dokumenton al la retejo. Por alŝuti dosieron al NewOCR, uzu la butonon "Elektu dosieron" en la sekcio "Elektu vian dosieron". Poste sur la kampo "Rekonada (j) lingvo (j)" specifi unu aŭ plurajn lingvojn de la fontdokumento, poste alklaku "Alŝutu + OCR".
  2. Agordu viajn preferatajn agordajn agordojn, elektu la paĝon, el kiu vi volas ĉerpi tekston kaj alklaku la butonon OCR.
  3. Rulumu malsupren iom de la paĝo kaj trovu la butonon "Elŝuti".

    Alklaku ĝin kaj en la menuo elektu la bezonatan dokumentan formaton por elŝuti. Post tio, la finita dosiero kun la ĉerpita teksto elŝutiĝos al via komputilo.

La ilo estas konvena kaj sufiĉe alta kvalito agnoskas ĉiujn gravulojn. Tamen la prilaborado de ĉiu paĝo de la importita PDF-dokumento devas komenci sendepende kaj ĝi aperas en aparta dosiero. Vi kompreneble povas tuj kopii la agnoskajn rezultojn en la tondujo kaj kombini ilin kun aliaj.

Tamen, konsiderante la nuancon priskribitan supre, estas tre malfacile ĉerpi grandajn kvantojn da teksto per NewOCR. Kun malgrandaj dosieroj, la servo kunfalas.

Metodo 4: OCR.Space

Simpla kaj komprenebla rimedo por ciferecigi tekston, ĝi permesas rekoni PDF-dokumentojn kaj doni la rezulton al TXT-dosiero. Neniuj limoj pri la nombro de paĝoj estas provizitaj. La sola limigo estas, ke la grandeco de la eniga dokumento ne devas superi 5 megabajtojn.

Interreta Interreta Servo OCR

  1. Registriĝi por labori per la ilo ne necesas.

    Nur sekvu la ligon supre kaj alŝutu la PDF-dokumenton al la retejo de la komputilo per la butono "Elektu dosieron" aŭ de la reto - laŭ referenco.
  2. En la falmenova listo "Elektu OCR-lingvon" Elektu la lingvon de la importita dokumento.

    Tiam komencu la tekston rekonan procezon alklakante la butonon "Komencu OCR!".
  3. Fine de la prilaborado de dosieroj, legu la rezulton en la kampo OCR'ed Rezulto kaj alklaku "Elŝuti"elŝuti la finitan TXT-dokumenton.

Se vi nur bezonas ĉerpi la tekston el la PDF kaj samtempe ĝia fina formatado tute ne gravas, OCR.Space estas bona elekto. La sola afero estas, ke la dokumento estu "unulingva", ĉar oni ne agnoskas du aŭ pli da lingvoj samtempe en la servo.

Vidu ankaŭ: Senpagaj analogoj de FineReader

Taksante la interretajn ilojn prezentitajn en la artikolo, oni devas rimarki, ke FineReader Online de ABBYY pritraktas la OCR-funkcion plej precize kaj efike. Se maksimuma precizeco de teksta agnosko gravas por vi, plej bone estas konsideri ĉi tiun opcion specife. Sed plej probable, vi ankaŭ devos pagi por ĝi.

Se vi bezonas ciferecigi malgrandajn dokumentojn kaj vi pretas sendepende korekti erarojn ĉe la servo, konsilas uzi NewOCR, OCR.Space aŭ Senpagan Interretan OCR.

Pin
Send
Share
Send