Я новичок в UIMA...
Я хочу подключиться к базе данных, извлечь данные и обработать их с помощью аннотатора регулярных выражений UIMA и записать обратно в базу данных.
Пример:
Таблица: emp
Name Department EmpId
AB-C Sale 2134[3]
XYZ, Fina&nce 23423
PQ#R Marketing 234(47
Чтобы преобразовать с помощью аннотатора регулярного выражения UIMA
Желаемый результат
Name Department EmpId
ABC Sales 21343
XYZ Finance 23423
PQR Marketing 23447
Я установил UIMA, ECLIPSE и соответствующие драйверы JDBC для подключения базы данных.
заранее спасибо
Есть несколько способов добиться этого.
Простейшим (не столь расширяемым) способом было бы написать 3 класса (используйте uimaFIT http://uima.apache.org/uimafit.html#Documentation, чтобы упростить кодирование):
CollectionReader: - читать во всех данных в объектах - перебирать объекты и создавать JCAS с каждого объекта, вы можете сохранить первичный ключ в аннотации.
Механизм анализа: - используйте аннотатор регулярных выражений UIMA для управления документом JCASTextText
Потребитель: - прочитайте JCAS documentText и используйте первичный ключ для обновления базы данных
Лучшим способом было бы абстрагирование чтения и записи путем создания внешнего ресурса (http://uima.apache.org/d/uimafit-current/tools.uimafit.book.html#ugr.tools.uimafit.externalresources), который подключается к базе данных (предоставляет метод hasNext() и next() - это очень удобно для использования в CollectionReader и Consumer). Это имеет то преимущество, что вся логика инициализации может быть изолирована. При использовании UIMAFit вы можете использовать инсталляцию параметров конфигурации (http://uima.apache.org/d/uimafit-current/tools.uimafit.book.html#ugr.tools.uimafit.configurationparameters), например, чтобы установить соединение строка и настраиваемый поисковый запрос.
Используйте класс SimplePipeline в uimaFIT для запуска вашего конвейера: http://uima.apache.org/d/uimafit-current/tools.uimafit.book.html#ugr.tools.uimafit.pipelines