Spyke

Pdf na plik tekstowy - pytanko

Trwa praca nad tekstem Louise Michell. Mam tekst w PDF, za pomoca programu przerobiłem go na plik tekstowy.

I teraz ten tekst w tym pliku tekstowym jest jak w PDF, to znaczy szerokość jest taka sama, jest bardzo dużo rozdzielonych słów (z myślnikami, gdy na końcu linijki słowo się nie kończy, na przykład rozdzie- lonych).

Czy da się to jakoś automatycznie pousuwać, czy trzeba ręcznie? A może istnieje jakiś lepszy pogram, który od razu to zrobi?

View original on szmer.info
szmer.info

Hej @[email protected] , aktualnie w takich zagadnieniach siedzę – podeślij ten PDF albo plik tekstowy, spróbuję pomóc!

@[email protected]: jeśli jakiś pdftotext rygorystycznie trzyma się tzw. dywizów (łączników, "myślników", "-") zamiast myślników ("–", "—"), to tzw. wyrażeniem regularnym, regexem PCRE i substytucją: s/(\b)-\n(\b)/\1\2/gmu: http://regex101.com/r/BJMjRG/1.

3

Hej Waćpan! PFM już się tym zajął, ale w razie czego będę na przyszłość o Tobie pamiętał! Dzięki!

2
pfm
szmer.info

Posklejać to automatycznie może być ciężko... Czy takie rozdzielone słowa mają myślniki w miejscu podziału? To by pomogło.

2

You reached the end

Pdf na plik tekstowy - pytanko | Spyke