Прочитай что тут написано
Помогите прочитать, что здесь написано? (OCR)
Тонны архивных бумаг, чеков и счетов проходят сканирование и оцифровку во многих отраслях: в розничной торговле, логистике, банковских услугах и т.п. Компании получают конкурентное преимущество, если быстро оцифровывают и находят нужную информацию.
В 2020 году нам тоже пришлось решать проблему качественной оцифровки документов, и над этим проектом мы с коллегами работали совместно с компанией Verigram. Вот как мы проводили оцифровку документов на примере заказа клиентом SIM-карты прямо из дома.
Оцифровка позволила нам автоматически заполнять юридические документы и заявки на услуги, а также открыла доступ к аналитике фискальных чеков, отслеживанию динамики цен и суммарных трат.
Для преобразования различных типов документов (отсканированные документы, PDF-файлы или фото с цифровой камеры) в редактируемые форматы с возможностью поиска мы используем технологию оптического распознавания символов – Optical Character Recognition (OCR).
Работа со стандартными документами: постановка задачи
Заказ SIM-карты для пользователя выглядит так:
пользователь решает заказать SIM-карту;
фотографирует удостоверение личности для автоматического заполнения анкеты;
курьер доставляет SIM-карту.
Важно: пользователь фотографирует удостоверение личности своим смартфоном со специфическим разрешением камеры, качеством, архитектурой и другими особенностями. А на выходе мы получаем текстовое представление информации загруженного изображения.
Цель проекта OCR: построить быструю и точную кросc-платформенную модель, занимающую небольшой объем памяти на устройстве.
Верхнеуровневая последовательность обработки изображения стандартного документа выглядит так:
Выделяются границы документа, исключая не интересующий нас фон и исправляя перспективу изображения документа.
Выделяются интересующие нас поля: имя, фамилия, год рождения и т.п. На их основе можно построить модель предсказания соответствующего текстового представления для каждого поля.
Post-processing: модель вычищает предсказанный текст.
Локализация границ документа
Загруженное с камеры устройства изображение документа сравнивается с набором заранее подготовленных масок стандартных документов: фронтальная или задняя часть удостоверения, документ нового или старого образца, страницы паспорта или водительские права.
Предварительно делаем pre-processing обработку изображения и в результате ряда морфологических операций получаем соответствующее бинарное (черно-белое) представление.
Техника работает так: в каждом типе документа есть фиксированные поля, не меняющиеся по ширине и высоте. Например, название документа в правом верхнем углу как на картинке ниже. Они служат опорными полями, от которых рассчитывается расстояние до других полей документа. Если количество обнаруженных полей от опорного выше определенного порога для проверочной маски, мы останавливаемся на ней. Так подбирается подходящая маска.
Так выглядит подбор подходящей маски
исправляется перспектива изображения;
определяется тип документа;
изображение обрезается по найденной маске c удалением фона.
В нашем примере мы выявили, что загруженное фото — это фронтальная часть удостоверения личности Республики Казахстан образца позднее 2014 года. Зная координаты полей, соответствующие этой маске, мы их локализуем и вырезаем для дальнейшей обработки.
Следующий этап — распознавание текста. Но перед этим расскажу, как происходит сбор данных для обучения модели.
Распознавание текста
Данные для обучения
Мы подготавливаем данные для обучения одним из следующих способов.
Первый способ используется, если достаточно реальных данных. Тогда мы выделяем и маркируем поля с помощью аннотационного инструмента CVAT. На выходе получаем XML-файл с названием полей и их атрибутами. Если вернуться к примеру, для обучения модели по распознаванию текста, на вход подаются всевозможные локализованные поля и их соответствующие текстовые представления, считающиеся истинными.
Но чаще всего реальных данных недостаточно или полученный набор не содержит весь словарь символов (например, в реальных данных могут не употребляться некоторые буквы вроде «ъ» или «ь»). Чтобы получить большой набор бесплатных данных и избежать ошибок аннотаторов при заполнении, можно создать синтетические данные с аугментацией.
Сначала генерируем рандомный текст на основе интересующего нас словаря (кириллица, латиница и т.п.) на белом фоне, накладываем на каждый текст 2D-трансформации (повороты, сдвиги, масштабирование и их комбинации), а затем склеиваем их в слово или текст. Другими словами, синтезируем текст на картинке.
Примеры 2D-трансформаций
Показательный пример 2D-трансформации представлен в библиотеке для Python Text-Image-Augmentation-python. На вход подается произвольное изображение (слева), к которому могут применяться разные виды искажений.
Применяем разные виды искажений Дисторсия, перспектива и растяжение изображения с помощью библиотеки Text-Image-Augmentation-python
После 2D-трансформации на изображение текста добавляются композитные эффекты аугментации: блики, размытия, шумы в виде линий и точек, фон и прочее.
Пример изображений в сформированной нами обучающей выборке на основе применения аугментации
Так можно создать обучающую выборку.
Обучающая выборка
Распознавание текста
Следующий этап — распознавание текста стандартного документа. Мы уже подобрали маску и вырезали поля с текстовой информацией. Дальше можно действовать одним из двух способов: сегментировать символы и распознавать каждый по отдельности или предсказывать текст целиком.
Посимвольное распознавание текста
В этом методе строится две модели. Первая сегментирует буквы: находит начало и конец каждого символа на изображении. Вторая модель распознает каждый символ по отдельности, а затем склеивает все символы.
Предсказывание локального текста без сегментации (end-2-end-решение)
Мы использовали второй вариант — распознавание текста без сегментирования на буквы, потому что этот метод оказался для нас менее трудозатратным и более производительным.
В теории, создается нейросетевая модель, которая выдает копию текста, изображение которого подается на вход. Так как текст на изображении может быть написан от руки, искажен, растянут или сжат, символы на выходе модели могут дублироваться.
Отличие результатов распознавания реальной и идеальной модели
Чтобы обойти проблему дублирования символов, добавим спецсимвол, например «-», в словарь. На этапе обучения каждое текстовое представление кодируется по следующим правилам декодировки:
два и более повторяющихся символа, встретившиеся до следующего спецсимвола, удаляются, остается только один;
повторение спецсимвола удаляется.
Так во время тренировочного процесса на вход подается изображение, которое проходит конволюционный и рекуррентный слои, после чего создается матрица вероятностей встречаемости символов на каждом шаге.
Истинное значение получает различные представления с соответствующей вероятностью за счет СТС-кодировки. Задача обучения — максимизировать сумму всех представлений истинного значения. После распознавания текста и выбора его представления проводится декодировка, описанная выше.
Архитектура модели по распознаванию текста
Мы попробовали обучить модель на разных архитектурах нейросетей с использованием и без использования рекуррентных слоев по схеме, описанной выше. В итоге остановились на варианте без использования рекуррентных слоев. Также для придания ускорения inference части, мы использовали идеи сетей MobileNet разных версий. Граф нашей модели выглядел так:
Схема итоговой модели
Методы декодирования
Хочу выделить два наиболее распространенных метода декодирования: CTC_Greedy_Decoder и Beam_Search.
CTC_Greedy_Decoder-метод на каждом шаге берет индекс, с наибольшей вероятностью соответствующий определенному символу. После чего удаляются дублирующиеся символы и спецсимвол, заданный при тренировке.
Метод «Beam_Search» — лучевой алгоритм, в основании которого лежит принцип: следующий предсказанный символ зависит от предыдущего предсказанного символа. Условные вероятности совстречаемости символов максимизируются и выводится итоговый текст.
Post-processing
Есть вероятность, что в продакшене при скоринге на новых данных модель может ошибаться. Нужно исключить такие моменты или заранее предупредить пользователя о том, что распознавание не получилось, и попросить переснять документ. В этом нам помогает простая процедура постобработки, которая может проверять на предсказание только ограниченного словаря для конкретного поля. Например, для числовых полей выдавать только число.
Другим примером постобработки являются поля с ограниченным набором значений, которые подбираются по словарю на основе редакторского расстояния. Проверка на допустимость значений: в поле даты рождения не могут быть даты 18 века.
Оптимизация модели
Техники оптимизации
На предыдущем этапе мы получили модель размером 600 килобайт, из-за чего распознавание были слишком медленным. Нужно было оптимизировать модель с фокусом на увеличение скорости распознавания текста и уменьшение размера.
В этом нам помогли следующие техники:
Квантование модели, при котором вычисления вещественных чисел переводятся в более быстрые целочисленные вычисления.
«Стрижка» (pruning) ненужных связей. Некоторые веса имеют маленькую магнитуду и оказывают малый эффект на предсказание, их можно обрезать.
Для увеличения скорости распознавания текста используются мобильные версии архитектур нейросеток, например, MobileNetV1 или MobileNetV2.
Так, в результате оптимизации мы получили снижение качества всего на 0,5 %, при этом скорость работы увеличилась в 6 раз, а размер модели снизился до 60 килобайт.
Вывод модели в продуктив
Процесс вывода модели в продуктив выглядит так:
Мы создаем 32-битную TensorFlow модель, замораживаем ее и сохраняем с дополнительными оптимизациями типа weight или unit pruning. Проводим дополнительное 8-битное квантование. После чего компилируем модель в Android- или iOS-библиотеку и деплоим ее в основной проект.
Рекомендации
На этапе развертывания задавайте статическое выделение тензоров в графе модели. Например, в нашем случае скорость увеличилась в два раза после указания фиксированного размера пакета (Batch size).
Не используйте LSTМ- и GRU-сети для обучения на синтетических данных, так как они проверяют совстречаемость символов. В случайно сгенерированных синтетических данных последовательность символов не соответствует реальной ситуации. Помимо этого они вызывают эффект уменьшения скорости, что важно для мобильных устройств, особенно для старых версий.
Аккуратно подбирайте шрифты для обучающей выборки. Подготовьте для вашего словаря набор шрифтов, допустимых для отрисовки интересующих символов. Например, шрифт OCR B Regular не подходит для кириллического словаря.
Пробуйте тренировать собственные модели, поскольку не все opensource-библиотеки могут подойти. Перед тем как тренировать собственные модели, мы пробовали Tesseract и ряд других решений. Так как мы планировали развертывать библиотеку на Android и iOS, их размер был слишком большим. Кроме того, качество распознавания этих библиотек было недостаточным.
Прочитай что тут написано
Прочитай, что здесь написано СнЧиоУлчИоЬТ
это из игры,но я так и не догадалась,что написано)))
Не обучен, наверное, азбуки этой. Не могу прочесть.
ни чё ни чё)) бывает) но поосторожнее с грибочками)
Вы прямо Турандот какая-то! Сдаюсь. Рубите голову
у меня всякий интелект отсутсвует. к сожалению.
Тут написано что ты сильно хочешь секса, это так?
Мммм, наверное, о любови, о чём ещё стоит писать.
Не понял. Точнее, не перевел. Лингвист- никакой.
Здесь не только написано, здесь ещё и накакано
Почитать то я прочитал,даже несколько раз. )))
юля не могу понять помоему не чего хорошего
я не понимаю такой язык на трезвую голову.
Не голова у меня не варит щас устал думать
переставляла буквы, но угадать не смогла
😕 :Pкак ты думаешь что я прочитал у тебя?
Прочитай, что здесь написано?
Прочитай, что здесь написано.
Здесь написано, учись отлично.
Книгу про Маугли Дима прочитал за 6 дней, а на чтение книги про Незайку он потратил на 5 дней больше?
Книгу про Маугли Дима прочитал за 6 дней, а на чтение книги про Незайку он потратил на 5 дней больше.
За сколько дней Дима прочитал книгу про Незнайку.
Как написать условмие :
Маша прочитала в три раза больше чем ей осталось прочитать?
Маша прочитала в три раза больше чем ей осталось прочитать.
Известно что она прочитала на 78 страниц больше чем ей осталось прочитать.
Сколько страниц прочитала Маша?
Девочка прочитала в 3 раза больше страниц, чем ей осталось прочитать?
Девочка прочитала в 3 раза больше страниц, чем ей осталось прочитать.
Известно также, что она прочитала на 60 страниц больше, чем осталось не прочитано.
Сколько страниц ей осталось прочитать?
Сколько страниц он прочитал сегодня?
ВЫ МОЖЕТЕ НАПИСАТЬ УСЛОВИЯ?
Прочитай текст?
Поможет ли история этого слова написать эго без ошибок.
Вчера Дима прочитал 4 страницы книги, а сегодня на 1 страницу меньше?
Вчера Дима прочитал 4 страницы книги, а сегодня на 1 страницу меньше.
Сколько страниц он прочитал сегодня?
Написать схему, решение, ответ.
Учебник прочитал 27 страниц книги, что составило три восьмых книги сколько страниц Пожалуйста с ришением написать?
Учебник прочитал 27 страниц книги, что составило три восьмых книги сколько страниц Пожалуйста с ришением написать.
В книге 320 страниц?
В книге 320 страниц.
Маша прочитала первую норму и вторую.
Ей осталось прочитать ещё 120 страниц.
Сколько страниц во второй глава, если в первой главе 78 страниц?
Условие пожалуйста, помогите написать )))).
Помогите, подставить числа в кружочки (внимательно прочитайте что написано сбоку)?
Помогите, подставить числа в кружочки (внимательно прочитайте что написано сбоку).
Ответ на 1 вопрос на фото.
70х3 = 210км 80х3 = 240км 210 + 240 = 450км(сколько за 3 часа) Время встречи = 600 : (70 + 80) = 4ч.
4÷100 = 0. 04 0. 04×16% = 0. 64 4 + 0. 64 = 4. 64 4. 64÷100 = 0. 0464 0. 0464×15 = 0. 696 4. 64 + 0. 696 = 5. 336 Если округлить то 5. 34.
Сможете прочитать, что тут написано?
У меня получилось не сразу. Даже подумал, что не получится вообще. Однако находит какое-то озарение и как картинки с 3D (помните такие журналы были с картинками) вдруг становится понятна надпись.
Говорят, что это происходит потому, что.
Вот вам еще для тренировки:
Пройдет сто лет и тексты упростят до таких
Размещено через приложение ЯПлакалъ
Это долго, когда воспринимаешь первое слово, всё остальное читается уже бегло.
В любом случае это всё херь, но зато хоть понятно откуда малолетние долбоебы с балоничиками краски черпают своё вдохновение при написании граффити. Напиши хуйню, испорти людям стену.
Легко. Думаю, это потому что читаю много.
Размещено через приложение ЯПлакалъ
Тоже первое слово затупил, дальше сразу расшифровал, как выше отписались, читаю я много.
ЗЫ прикол для старых гиков, что это значит «114m0»?
Размещено через приложение ЯПлакалъ
В слвх сть «лшн бкв», в ткст сть лшн слв. Плжт плск бмг н кнг тк, чтб плск нкрвл 4-6 бкв, (т сть В н смжт прчтть дн слв в стрчк). Ппрбйт прчтть. Скр всг, пнмн ткст стнтс н тм ж рвн, кк сл б В чтл ткст, н зкртй плскй бмг. тт прмр гврт тм, чт ткст блдт нктрй збтчнсть. Пр чтн свсм н бзтльн вчтвтьс в кжд бкв кжд слв. Чсть слв мжн прст пскть.
Ппрбйт бдть сб чт в кждм слв сть «лшн» бкв, в кждм прдлжн сть лшн слв, вш скрсть чтн влчтс.
Мнг втр, пржд чм злгть сть, длжн слмть псхлгчскй лд прдбждннст п тншн к свм дм. Чттль мжт бть н пдгтвлн к вспрт нвх дй л мть внтрнн спртвлн вспрт нфрмц. Птм втр пдбрт ввдн слв, стрт псхлгчскй мстк к слштл. н н ввлвт всь смсл срз, пттс зврнть фкт в дбн дл чттл бртк.
Стртг чтн мтдм прсмтр ткст.
твдт 10-20 скнд н прсмтр кждй стрнц кнг. Чтть нжн тк бстр, чтб в врм чтн н вхдть з сстн кмфрт.
Впшт нзнкм слв впрс н кртчк (тк ж кк в длт т пр зпмнн нстрннх слв). Пртсйт кртчк. Прдчск прсмтрвйт кртчк в слх л псьмнн твчйт н впрс. Дл лчшг зпмнн, мжн прпчтвть н клвтр кмпьтр впрс твт н нх. сл взмжн првлчь мц к зпмнн ткст, т т бзтльн слдт сдлть. Ппрбйт взвть чвств двлн, рдст. мц пмгт зпмнть нфрмц.
Скрт скрчтн