Почему при копировании из пдф в ворд получаются иероглифы
Перейти к содержимому

Почему при копировании из пдф в ворд получаются иероглифы

  • автор:

Кракозябры (иероглифы) при копировании с PDF документа

Электронные книги вошли в нашу повседневную жизнь и продолжают укреплять свою позицию. PDF – один из самых популярных форматов, который можно встретить на интернет просторах, посещая сайты и магазины. Но бывают досадные ситуации, когда текст, который мы хотим скопировать, просто превращается в непонятные символы. Кто-то на них говорит иероглифы, другие – кракозябры . Как же исправить такую ситуацию?

Я не уверен, что следующие советы помогут для всех решить проблему, но частичное решение ее все же возможно.

Давайте сразу отбросим отсканированые и нераспознанные PDF документы, из которых просто невозможно скопировать текст. Это равносильно попытке копирования текста из обычной фотографии, сделанной на ваш смартфон. В таком случае текст нужно распознать специальной программой, вроде ABBYY FineReader.

Наша книга (тестовая) полностью поддерживает копирование текста и изображений. Но при попытке перенести такой текст в Microsoft Office Word, можно видеть такие нечитабельные символы как на скриншоте сверху статьи.

Способ 1 (длинный).

Вся проблема в шрифтах и системе кодирования. PDF документ, с которого производится копирование имеет встроенные шрифты. И если такие шрифты отсутствуют в вашей операционной системе, то вы увидите такие кракозябры .

Чтобы можно было видеть нормальные буквы, при переносе текста нужно устанавливать соответствующие шрифты .

Чтобы узнать какие именно нужно инсталлировать на компьютер шрифты, нужно открыть наш PDF документ поддерживаемой программой (на примере PDF-XChange Viewer ). Далее идем в «Файл» → «Свойства документа» (можно нажать сочетание клавиш Ctrl + D).

кракозябры

Далее нажимаем на параметр «Шрифты» и видим список шрифтов, установленных в документе. Их и нужно найти в интернете и установить на компьютер. Для этого на загруженном шрифте два раза нажимаем левой клавишей мыши (то есть, открываем его), а потом нажимаем на кнопку «Установить» .

кракозябры

кракозябры

Далее копируем и вставляем текст из PDF документа, выделяем его в Microsoft Office Word (или в другом офисном редакторе, который у вас установлен) и выбираем из списка недавно установленный шрифт. Все должно быть нормально. Снизу на скриншоте видно, что я намеренно применил нужный шрифт только на одно предложение, другую часть текста прочитать невозможно.

кракозябры

Способ 2 (быстро и удобно).

кракозябры

Другой, более правильный и простой вариант – это использование программы (или плагина к редактору Notepad ++ ), которая называется Shtirlitz. Программа старая, давно не обновлялась, однако работает отлично. Прямо на лету выполняется вставка нормального текста. Никаких шрифтов не требуется. После копирования текста с данной программы и дальнейшей вставкой его в редактор Microsoft Office Word, все буквы и символы будут читаться и с использованием любого шрифта. Первый вариант не позволяет изменить шрифт. То есть, всегда, и на каждом компьютере нужно будет инсталлировать нужные шрифты для чтения только определенного документа. А если таких документов несколько сотен? Поэтому желательно воспользоваться этой программой для декодирования.

Способ 3 (онлайн).

Кто не хочет использовать программу Shtirlitz или она не работает, может использовать следующие онлайн сервисы для перекодирования (отдельные сервисы имеют ограничения по объему текста).

кракозябры

Обратите внимание, что кодирование нашей тестовой книги windows-1252. Для нас нужна кодировка windows-1251. Поэтому переходим на сервис online-decoder.com.

Там можно видеть окно, где написано «Скопируйте сюда текст». Вставляем наш непонятный текст и нажимаем на кнопку «Подбор». Такой способ будет правильно использовать если вам неизвестна система кодирования. Декодер попытается подобрать ее автоматически. Если вы знаете исходное кодирование своей кракозябры, то можете смело нажимать кнопку «Точно», указав перед этим кодирование, напротив текста «Я знаю нужные кодировки».

кракозябры

Второй сервис «artlebedev.ru». Есть два способа для декодирования: «Просто» и «Сложно». Первый вариант работает на автомате. Второй – дает возможность, при необходимости, указать исходное и конечное кодирование.

кракозябры

Третий онлайн сервис для декодирования текста «2cyr.com» имеет отличие от предыдущих в том, что позволяет выбирать язык. Кроме русского, доступен также и украинский язык интерфейса (и надеюсь, что кодирования также, просто не было возможности проверить).

Есть также два режима: автоматический и режим эксперта. Во втором можно указывать исходное и конечное кодирование. Рекомендуется автоматический режим. После того как вставили текст, напротив слов «Выберите кодировку : » , нужно выбрать «Автоматически (рекомендуется)» и нажать на кнопку «Ок».

Все три сервиса отлично работали на моей тестовой книге в формате PDF с кракозябрами.

Способ 4 (с помощью макросов для Microsoft Office Word ).

Еще один вариант для программы Microsoft Office Word. Никаких шрифтов ставить не нужно. Создаем макрос со следующим кодом:

Код 1: «Перекодирование 1252 в 1251»

Sub Corr1252_1251()
Dim s$, i&, j&
s = Selection
For i = 1 To Len(s)
j = AscW(Mid$(s, i, 1))
If j < 256 Then
Mid$(s, i, 1) = Chr(j)
' Debug.Print i & vbTab & Mid$(s, i, 1) & vbTab & j & vbTab & Chr(j)
End If
Next
Selection.Text = s
End Sub

Код 2: «Перекодирование 1252 в 1251 (с учетом русской буквы Ё)»

' Замена Ё и ё
Selection.Find.ClearFormatting
Selection.Find.Replacement.ClearFormatting
With Selection.Find
.Text = ChrW(168)
.Replacement.Text = "Ё"
.Forward = True
.Wrap = wdFindContinue
End With
Selection.Find.Execute Replace:=wdReplaceAll
Selection.Find.ClearFormatting
Selection.Find.Replacement.ClearFormatting
With Selection.Find
.Text = ChrW(184)
.Replacement.Text = "ё"
.Forward = True
.Wrap = wdFindContinue
End With
Selection.Find.Execute Replace:=wdReplaceAll
End Sub

Выделяем вставленный текст с иероглифами. Тогда запускаем макрос на выполнение и получаем нормальный текст, который можно спокойно редактировать, изменять шрифты и т.д.

Для добавления готового макроса в Word делаем следующее:

Открываем редактор и переходим в «Вид».

кракозябры

Там находим кнопку «Макросы» и нажимаем на нее.

кракозябры

кракозябры

Даем для макроса имя (любое, оно будет автоматически изменено при полном копировании кода выше).

кракозябры

Откроется окно в котором можно заметить название нашего макроса. При желании можете оставить свое имя. Но лучше, чтобы не было ошибок, полностью заменить весь код на готовый (код смотрите сверху).

кракозябры

Как видно, макрос начинается так:

Sub названиемакроса()
дальше идет код макроса
End Sub

Название макроса может любым, но не цифры и не должно быть пробелов. Может быть так: декодирование_кракозябр_с_ё. Но не может быть так: декодирование кракозябр с ё.

То есть, для нас нужно заменить для нашего созданного пустого макроса весь текст с кодом, который показан выше.

После того как заменили, нужно закрыть окно редактирования макросов (можно нажать на иконку сохранения, хотя изменения сохраняются автоматически). Далее выделяем наш иероглифический текст, открываем макросы, выбираем из списка (если их у вас несколько) нужный и нажимаем на кнопку «Выполнить».

кракозябры

Ваш текст должен стать читабельным.

кракозябры

Источник макросов для Microsoft Office Word: http://wordexpert.ru

Как ни крути, но это не полное решение ситуации. Поиск после данных действий в самом PDF документе работать не будет. Проблема остается. Кто может подсказать ее решение, просьба писать в комментариях.

Закорючки, иероглифы кракозябры при копировании из pdf ⁠ ⁠

Адекватного решения на просторах интернета я не нашел.

Пост для таких же как и я.

Решение оказалось простым это программа Adobe Acrobat.

Инструкция: 1) Открываем приложение Adobe Acrobat

2) В левом столбике нажимаем «Мой компьютер» -> «рабочий стол»

3) Выбираем нужный нам файл ( у меня он был на рабочем столе)

4) В правом столбике (правой части экрана) ищем иконку в виде листика со стрелочкой в кружке, при наведение будет написано «Экспорт PDF» нажимаем

5) Далее нажимаем «Экспорт» и выбираем папку куда сохранить файл.

966 постов 3.6K подписчика

@moderator, а можно добавить возможность менять сообщество также, как редактируем теги? Народ частенько промахивается, а сделать ничего нельзя каждый раз.

Автору: совет дельный, конечно, но PDF формат был разработан Adobe, которая, собственно, и делает Acrobat специально для работы с этим форматом, поэтому совсем неудивительно, что без Акробата у вас были проблемы с копированием из файла, особенно если файл был специально так сделан, например.

Огромное спасибо, юзер! Спас от перепечатки простыней техдокументации!

Да ты просто гений!

Иллюстрация к комментарию

Меня хотят засудить за пост о тухляке в сети разливаек :(⁠ ⁠

Меня хотят засудить за пост о тухляке в сети разливаек :( Пиво, Суд, Екатеринбург, Негатив

Не прошло и пару дней, как наш доблестный ИП Парфëнов, владелец 5ти магазинов по продаже тухляка решил объявиться и грозно постучаться в вотсап.

Говорит, что хочет засудить по закону о коммерческой тайне.

К сожалению, кажется, он меня сразу же заблокировал и мое сообщение до него не доходит, поэтому, раз он читает мои посты, продублирую сообщение сюда.

Добрый день, А. А. , не мне вас учить как составлять досудебную претензию. Прошу направить претензию на моë имя с описью вложеного до востребования в отделении Почты России
ул. 8 Марта, 57, 620063. Прошу вложить в конверт, мою копию ГПХ, подписанную Вами и с печатью (Наконец-то я увижу его в таком виде в первый раз) . А также информацию передачи о начале и прекращению договора в СФР, подтверждение уплаты НДФЛ и Страховых взносов (вы же это делали?). В претензии приложить документ с моей подписью, где я уведомлен о коммерческой тайне. Приложить перечень что в компании считается коммерческой тайной.

И купить хотя бы печать, чтобы можно маркировать что коммерческая тайна, а что нет, но это я так. Вы же не упустили этот момент?

Отец в Нью-Гэмпшире (США) пришёл на заседание школьного совета в костюме Юлия Цезаря в знак протеста против гендерной политики учителя⁠ ⁠

Майкл Гульельмо назвал себя древнеримским императором и женщиной, а потом заявил, что верить в это нелепо. Мужчина призвал к отставке директора школы и преподавателя, который с недавних пор приходит на уроки в женской одежде.

Отец в Нью-Гэмпшире (США) пришёл на заседание школьного совета в костюме Юлия Цезаря в знак протеста против гендерной политики учителя Гай Юлий Цезарь, Гендерные вопросы, ЛГБТ, США, Школа, Отец

«Ваш долг — действовать в интересах детей. Учить правде, а не лжи. Фактам, а не выдумкам. Биологии, а не социальной повестке. Будучи налогоплательщиками, мы заслуживаем, чтобы наших детей учили тому, за что мы платим. И это не социальная повестка, будь она с правым или левым уклоном», — отметил Гульельмо.

Ответ на пост «Шоколадные яйца»⁠ ⁠

Я на новый год своей будущей жене подарил набор от киндерсюрприза, с яйцом и конфетками. Она знала, что у меня проблеммы с деньгами, и даже не обиделась. На самом деле, в конце месяца, мне пришел денежный объект, и я смог подзаработать. Я купил этот набор, аккуратно распаковал его так, чтобы потом можно было опять закрыть, и разобрал яйцо киндерсюрприза. Делал все максимально аккуратно, чтобы потом можно было собрать половинки и завернуть обратно в обертку. Из контейнера я достал игрушку и положил маленькие, золотые сережки, купленные мной с получки перед новым годом, и записку «С новым годом, я тебя люблю!». Половинки яйца я разогрел на сковородке и склеил их вместе. Потом завернул и все собрал в целый подарок. К будущей жене я приехал под самый новый год, она еще и приболела. Сидела грустная с этим подарком перед столом с оливьешками. Потом стала раскрывать киндер, я думал, что увидит подмену, но она ничего не замечала. Потом, когда разобрала шоколадную скорлупу, потрясла контейнер, открыла и у нее отвисла челюсь от удивления, реально очень удивилась. Сережки выкатились ей в ладонь, она смотрела на меня и повторяла с улыбкой, ну ты вааабще! Я видел ее радость и изумление и мне было от этого тоже очень радостно, иногда вспоминаю ее глаза тогда, и даже слезинка наворачивается. Короче, делайте своим любимым сюрпризы, не пожалеете!

Ответ на пост «Не судите по одежке»⁠ ⁠

В общем дело было так…
Работала я вахтами на Крайнем Севере.Изначально работала поваром, пекарем, зав. производством, а вот потом стала правой рукой основной начальницы и числилась в конторе, как инспектор или контролёр, кому как нравится.

Работа была не хитрая, связанная с многочисленными разъездами и перелетами с места на место.По приезду на точку, мне нужно было заполнить определённые документы, проследить за качеством еды,выяснить потребности столовой и составить заявку, прощупать микроклимат между начальником и подчиненными, не забижают ли кого, ну и принять меры, если нужно конечно. Обычно, просто так не посылали, если мне дали задание, значит ,, первые звоночки,, уже прозвенели.

Контора наша была очень большая, точки были раскиданы по всему северу,и в лицо меня почти никто не знал( до первой проверки)

Отправили меня как то на Ванкор, там уже пол года, как была открыта новая столовая и было много жалоб, как от работяг, что еда плохая, так и от коллектива, что начальство гнилое. Мне нужно было выяснить, что не так, кто виноват и виновных отправить домой.

Посадили нас на вертолёт, летела я и одна дородная дама повар. Мне было 23 года, в авиационной куртке из овчины на два размера больше, я выглядела не очень.Дама же была увешана золотом и в норковой шубе до пят, вид, ну очень представительный.На точке конечно были предупреждены, что прилетит проверяющий и повар, но кто и как выглядит никто не знал.

По прилету нас встретили.Начальница столовой ужом стала виться около дородной дамы и заглядывать в глаза, а меня отправили отдыхать в балок, чтобы под ногами не путалась и выходила на завтрак утром в четыре.

Я спокойно ушла в балок, расположилась, и когда подошло время ужина, пошла в столовую.Думаю постою-ка в очереди среди работяг, послушаю, посмотрю чем кормят и вообще,чем мои коллеги занимаются.

Когда открыли столовую, выяснилось, что, то меню которое было обозначено не соблюдено и на 30 процентов от перечня.В очереди то тут то там, раздавалось одно и то же,, фу, гречка. Выбор блюд был очень скудным, несмотря на огромное количество народа, на раздаче была одна девчушка, чуть постарше меня и еле справлялась.На вопрос ,, где начальство. махнула рукой на подсобку и продолжила носится.

Я достала свои документы, напялила халат и пошла с ревизией.В пресловутой подсобке, где по идее должен был быть склад,было много народу и веселье шло полным ходом.Начальница и её приближенные распивали крепкие алкогольные напитки и только песни ещё не горланили.Мадам в шубе сидела с раскрасневшейся мордой и видимо, так и не сказала, что она повар на замену, а не контролёр.

По итогу начальницу эту и особо к ней приближенных,заменили и всё в столовой наладилось.

Чем можно расшифровать pdf файл?(Решено)

Да, интересный вариант. Там текст скривлен, так что либо руками, либо как-то так распознавать и править ошибки.

там где? он скинул файл? мне теперь любопытно

глянь че могу
https://brandfolder.com/workbench/extract-text-from-image
короче
все еще так тупо, что аж гениально
делаешь, сука, скриншот страницы
загружаешь в тулзу
получаешь текст

с самой пдфкой ничего не сделал, нужно именно в изображение конвертнуть тем или иным способом

ну или можешь попробовать всю пдфку конвертнуть в жипег и разом прогнать

д
medical
equipment
МЕДИЦИНСКАЯ
БАЛЬНЕОЛОГИЧЕСКАЯ ВАННА
Technomex, Польша
T-MP DISCOVERY
T-MP UWM
Ванна T-MP Discovery предназначена для классических бальнеоло-
гических процедур с применением лекарственных настоев или ме-
дикаментов. Прекрасно подходит для принятия ванн использова-
нием местных минеральных вод.
Современный дизайн и эргономичная форма чаши ванны позволяют
пациенту расслабиться во время процедуры и обеспечивают более
эффективную терапию.
Дополнительными модификациями ванны являются:
• T-MP/B/Discovery — модель для грязевых процедур
• T-MP/S/Discovery — модель для солевых растворов
• T-MP/S/B/Discovery — модель для соленой воды, сероводорода
и грязевых ванн
• T-MP/K Discovery — модель для принятия ванн с углекислотой
СПЕЦИФИКАЦИЯ
Ванна T-MP UWM предназначена для проведения подводного руч-
ного массажа при помощи гибкого шланга со сменными наконечни-
ками. Интегрированные в конструкцию ванны регулятор давления и
манометр позволяют точно дозировать силу водяной струи, исходя-
щей из гидромассажного шланга от 0 до 6 бар (атмосфер).
Объем
Модель ванны
Тип
Габаритные
размеры (мм)
2200 x 950 x 980
01.501.119
T-MP Discovery
240
Электронная панель управления позволяет легко программировать
время автоматического гидромассажа. В зависимости от необходи-
мого эффекта для увеличения интенсивности воздействия в воду
могут добавляться биологически активные субстанции (масла, экс-
тракты трав).
Ванна имеет два уровня наполнения: на 200 и 350 литров.
01.501.121
T-MP/B/Discovery
240
2200 x 950 x 980
01.501.120
240
2200 x 950 x 900
T-MP/S/Discovery
T-MP/S/B/Discovery
01.501.124
240
2200 x 950 x 900
Вследствие небольшого объема ванна идеально подходит для про-
ведения ручного подводного массажа детей и подростков.
СПЕЦИФИКАЦИЯ
Модель ванны
Тип
Объем (л)
Габаритные
размеры (мм)
01.501.004
T-MP UWM
250
2080 x 840 x 740
СТАНДАРТНЫЕ ЦВЕТА ВАНН
2004
10217
6027

[Legacy] [PagePlus] Как избавиться от иероглифов при копировании из PDF?

Подробнее, плз. Что вы сделали как надо, и в каком редакторе?

Копируете "с готового PDF" — будем надеяться, что используется Adobe Acrobat?

И по нашей доброй местной традиции мы продолжим ванговать до утра без выложенного проблемного файла.

George
I wish I was a monster you think I am
  • 04.04.2018
  • #6

Поставки лицензионного программного обеспечения (пишите в «личку»). www.belrus.info

Remember, never say you can’t do something in InDesign, it’s always just a question of finding the right workaround to get the job done. ©David Blatner

alexmost
Участник
  • 04.04.2018
  • #7

Забиваю текст к чертежам в PDF с помощью Serif PagePlus
Для этого использую GOST B. Для выделения жирным пришлось модифицировать дубль в Studio 5 и FontForge.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *