UIMA для структурированных данных

Question

UIMA для структурированных данных

1

Я новичок в UIMA...

Я хочу подключиться к базе данных, извлечь данные и обработать их с помощью аннотатора регулярных выражений UIMA и записать обратно в базу данных.

Пример:
Таблица: emp

Name       Department      EmpId  
AB-C       Sale          2134[3]  
XYZ,       Fina&nce        23423  
PQ#R       Marketing       234(47

Чтобы преобразовать с помощью аннотатора регулярного выражения UIMA

Желаемый результат

Name       Department      EmpId  
ABC        Sales           21343  
XYZ        Finance         23423  
PQR        Marketing       23447

Я установил UIMA, ECLIPSE и соответствующие драйверы JDBC для подключения базы данных.

заранее спасибо

Krishna Das 04 сен. 2014, в 13:04

Источник

0

Если ваше извлечение и обработка аналогичны вашему примеру (удалите не буквенно-цифровые символы), то я бы определенно использовал чистый SQL (например, SQL REPLACE)
Renaud 04 сен. 2014, в 19:50
0

Мне нужно много обработать текст, поэтому я с нетерпением жду работы над UIMA
Krishna Das 07 сен. 2014, в 06:42

Теги:

java

regex

eclipse

uima

1 ответ

Ещё вопросы

Если ваше извлечение и обработка аналогичны вашему примеру (удалите не буквенно-цифровые символы), то я бы определенно использовал чистый SQL (например, SQL REPLACE)
Мне нужно много обработать текст, поэтому я с нетерпением жду работы над UIMA

jvdbogae · Answer 1 · 2014-09-04T10-40-00.000Z

Есть несколько способов добиться этого.

Простейшим (не столь расширяемым) способом было бы написать 3 класса (используйте uimaFIT http://uima.apache.org/uimafit.html#Documentation, чтобы упростить кодирование):

CollectionReader: - читать во всех данных в объектах - перебирать объекты и создавать JCAS с каждого объекта, вы можете сохранить первичный ключ в аннотации.

Механизм анализа: - используйте аннотатор регулярных выражений UIMA для управления документом JCASTextText

Потребитель: - прочитайте JCAS documentText и используйте первичный ключ для обновления базы данных

Лучшим способом было бы абстрагирование чтения и записи путем создания внешнего ресурса (http://uima.apache.org/d/uimafit-current/tools.uimafit.book.html#ugr.tools.uimafit.externalresources), который подключается к базе данных (предоставляет метод hasNext() и next() - это очень удобно для использования в CollectionReader и Consumer). Это имеет то преимущество, что вся логика инициализации может быть изолирована. При использовании UIMAFit вы можете использовать инсталляцию параметров конфигурации (http://uima.apache.org/d/uimafit-current/tools.uimafit.book.html#ugr.tools.uimafit.configurationparameters), например, чтобы установить соединение строка и настраиваемый поисковый запрос.

Используйте класс SimplePipeline в uimaFIT для запуска вашего конвейера: http://uima.apache.org/d/uimafit-current/tools.uimafit.book.html#ugr.tools.uimafit.pipelines