UIMA для структурированных данных

1

Я новичок в UIMA...

Я хочу подключиться к базе данных, извлечь данные и обработать их с помощью аннотатора регулярных выражений UIMA и записать обратно в базу данных.

Пример:
Таблица: emp

Name       Department      EmpId  
AB-C       Sale          2134[3]  
XYZ,       Fina&nce        23423  
PQ#R       Marketing       234(47  

Чтобы преобразовать с помощью аннотатора регулярного выражения UIMA

Желаемый результат

Name       Department      EmpId  
ABC        Sales           21343  
XYZ        Finance         23423  
PQR        Marketing       23447  

Я установил UIMA, ECLIPSE и соответствующие драйверы JDBC для подключения базы данных.

заранее спасибо

  • 0
    Если ваше извлечение и обработка аналогичны вашему примеру (удалите не буквенно-цифровые символы), то я бы определенно использовал чистый SQL (например, SQL REPLACE)
  • 0
    Мне нужно много обработать текст, поэтому я с нетерпением жду работы над UIMA
Теги:
uima

1 ответ

2

Есть несколько способов добиться этого.

Простейшим (не столь расширяемым) способом было бы написать 3 класса (используйте uimaFIT http://uima.apache.org/uimafit.html#Documentation, чтобы упростить кодирование):

CollectionReader: - читать во всех данных в объектах - перебирать объекты и создавать JCAS с каждого объекта, вы можете сохранить первичный ключ в аннотации.

Механизм анализа: - используйте аннотатор регулярных выражений UIMA для управления документом JCASTextText

Потребитель: - прочитайте JCAS documentText и используйте первичный ключ для обновления базы данных

Лучшим способом было бы абстрагирование чтения и записи путем создания внешнего ресурса (http://uima.apache.org/d/uimafit-current/tools.uimafit.book.html#ugr.tools.uimafit.externalresources), который подключается к базе данных (предоставляет метод hasNext() и next() - это очень удобно для использования в CollectionReader и Consumer). Это имеет то преимущество, что вся логика инициализации может быть изолирована. При использовании UIMAFit вы можете использовать инсталляцию параметров конфигурации (http://uima.apache.org/d/uimafit-current/tools.uimafit.book.html#ugr.tools.uimafit.configurationparameters), например, чтобы установить соединение строка и настраиваемый поисковый запрос.

Используйте класс SimplePipeline в uimaFIT для запуска вашего конвейера: http://uima.apache.org/d/uimafit-current/tools.uimafit.book.html#ugr.tools.uimafit.pipelines

  • 0
    Спасибо @jvdbogae

Ещё вопросы

Сообщество Overcoder
Наверх
Меню