, é um
corpus multilingue, criado para apoiar a pesquisa sobre a recuperação de informações e tecnologias
relacionadas da
linguagem humana. Projeto que faz parte do centro de tecnologia da linguagem humana e bioinformática
, Covilhã, Portugal.
E atualmente dirigido pelo Dr. João Paulo Cordeiro, igualmente Docente do Departmento de Informática da
UBI.
O
Centro de Tecnologia da Linguagem Humana e Bioinformática
(HULTIG) é um grupo de pesquisa do departamento de informática,
da Universidade da Beira interior. Ao longo do tempo, temos trabalhado em uma variedade de tópicos
relacionados com o processamento
automático da linguagem humana, com foco particular na aplicação das mesmas. Entre os vários
subdomínios,
temos dedicado especial atenção ao seguinte:
▸ Pesquisa de Informação;
▸ Mineração e Extração de Texto;
▸ Sumarização Automática;
▸ Deteção Automática de Plágio;
▸ Análise de Sentimentos em Texto;
▸ Semântica Lexical;
▸ Similaridade Alinhamento Textual;
▸ Caracterização Estética do Texto;
O corpus
Hultig-C começou a ser desenvolvido em Janeiro de 2017, e abrange milhares de
palavras em diferentes idiomas,
colectadas com base em textos brutos (de diferentes naturezas, níveis linguísticos e de
sofisticação)
obtidos através de sites da web e indexados com OpenWebSpider. O
Hultig-C está a ser
desenvolvido e mantido na
UBI, pelo
Hultig
(Centro de Tecnologia da Linguagem Humana e Bioinformática) do Departamento de Informática.
Este Corpus surge como resultado de um
trabalho em curso que tem como objetivo dar suporte ao processamento automático da linguagem humana,
alargando e melhorando gradualmente o
Corpus, em todas as suas dimensões, de forma a providenciar um recurso de alto nível para a
investigação em Linguística computacional e para o
desenvolvimento de aplicações e tecnologias da linguagem.
Além, de uma preocupação maioritária com a aplicação e tecnologia, também consideramos os
aspectos mais teóricos e conceituais do
estudo da linguagem humana, em particular a linguística computacional.