BEM-VINDO AO HULTIG-C

Hultig-C, é um corpus multilingue, criado para apoiar a pesquisa sobre a recuperação de informações e tecnologias relacionadas da linguagem humana. Projeto que faz parte do centro de tecnologia da linguagem humana e bioinformática (HULTIG) fundada em 2003 por Gael Harry Dias, na época professor do Departmento de Informática da Universidade da Beira Interior (UBI), Covilhã, Portugal. E atualmente dirigido pelo Dr. João Paulo Cordeiro, igualmente Docente do Departmento de Informática da UBI.

O Centro de Tecnologia da Linguagem Humana e Bioinformática (HULTIG) é um grupo de pesquisa do departamento de informática, da Universidade da Beira interior. Ao longo do tempo, temos trabalhado em uma variedade de tópicos relacionados com o processamento automático da linguagem humana, com foco particular na aplicação das mesmas. Entre os vários subdomínios, temos dedicado especial atenção ao seguinte:

▸ Pesquisa de Informação;
▸ Mineração e Extração de Texto;
▸ Sumarização Automática;
▸ Deteção Automática de Plágio;
▸ Análise de Sentimentos em Texto;
▸ Semântica Lexical;
▸ Similaridade Alinhamento Textual;
▸ Caracterização Estética do Texto;

O corpus Hultig-C começou a ser desenvolvido em Janeiro de 2017, e abrange milhares de palavras em diferentes idiomas, colectadas com base em textos brutos (de diferentes naturezas, níveis linguísticos e de sofisticação) obtidos através de sites da web e indexados com OpenWebSpider. O Hultig-C está a ser desenvolvido e mantido na UBI, pelo Hultig (Centro de Tecnologia da Linguagem Humana e Bioinformática) do Departamento de Informática. Este Corpus surge como resultado de um trabalho em curso que tem como objetivo dar suporte ao processamento automático da linguagem humana, alargando e melhorando gradualmente o Corpus, em todas as suas dimensões, de forma a providenciar um recurso de alto nível para a investigação em Linguística computacional e para o desenvolvimento de aplicações e tecnologias da linguagem.

Além, de uma preocupação maioritária com a aplicação e tecnologia, também consideramos os aspectos mais teóricos e conceituais do estudo da linguagem humana, em particular a linguística computacional.