Hultig-Corpus

Bem-vindo ao Hultig-C

O que é um Corpus?

A palavra "corpus", derivada do latim, que significa corpo, pode ser usada para se referir (vagamente) a qualquer corpo de texto escrito ou falado. Na Linguística moderna, o termo é comumente usado para se referir a grandes coleções de textos que representam uma amostra de uma determinada variedade ou uso de linguagem(s) que armazenados em texto bruto, são apresentados em forma legível por máquina.

Hultig-C, é um corpus multilingue, criado para apoiar a pesquisa sobre a recuperação de informações e tecnologias relacionadas da linguagem humana. Projeto que faz parte do centro de tecnologia da linguagem humana e bioinformática (HULTIG) fundada em 2003 por Gael Harry Dias, na época professor do Departmento de Informática da Universidade da Beira Interior (UBI), Covilhã, Portugal. E atualmente dirigido pelo Dr. João Paulo Cordeiro, igualmente Docente do Departmento de Informática da UBI.

• • •

Saiba Mais

Sobre Hultig-C

O Centro de Tecnologia da Linguagem Humana e Bioinformática (HULTIG) é um grupo de pesquisa do departamento de informática, da Universidade da Beira interior. Ao longo do tempo, temos trabalhado em uma variedade de tópicos relacionados com o processamento automático da linguagem humana, com foco particular na aplicação das mesmas. Entre os vários subdomínios, temos dedicado especial atenção ao seguinte:

✔ Pesquisa de Informação;
✔ Mineração e Extração de Texto;
✔ Sumarização Automática;
✔ Deteção Automática de Plágio;
✔ Análise de Sentimentos em Texto;
✔ Semântica Lexical;
✔Similaridade Alinhamento Textual;
✔ Caracterização Estética do Texto;

O Hultig-C é um corpus que começou a ser desenvolvido em Janeiro de 2017, e consiste em de cerca de milhares de palavras em diferentes idiomas, colectadas com base nos textos brutos (de diferentes naturezas, de diferentes níveis linguísticos e de sofisticação) obtidos através de sites da web e indexados com OpenWebSpider. O Hultig-C está a ser desenvolvido e mantido na UBI, pelo Hultig (Centro de Tecnologia da Linguagem Humana e Bioinformática) do Departamento de Informática. Este Corpus surge como resultado de um trabalho em curso que tem como objetivo dar suporte ao processamento automático da linguagem humana, alargando e melhorando gradualmente o Corpus, em todas as suas dimensões, de forma a providenciar um recurso de alto nível para a investigação em Linguística computacional e para o desenvolvimento de aplicações e tecnologias da linguagem.

Além, de uma preocupação maioritária com a aplicação e tecnologia, também consideramos os aspectos mais teóricos e conceituais do estudo da linguagem humana, em particular a linguística computacional.

Informações adicionais sobre o Conjunto de Dados Hultig, está disponível na conferência do Hultig web site .

• • •

Hultig-C Detalhes

Páginas Web:

• 4, 943, 857 Páginas Web.

• 100 GB não comprimido.

Identificadores de Linguagem:

• Todos os identificadores de linguagem de 2 letras para o conjunto de dados estão de acordo com a lista de ID de idioma ISO 639.

• No conjunto de dados Hultig-C, foram usados todos os idiomas Europeus, bem como alguns idiomas predominantes no continente Asiático.

Gráfico da Web-conjunto de dados inteiro :

• URLs Únicos: 3, 914, 526

• • •

Como Obtê–lo

Como Obtê-lo

Os conjuntos de dados Hultig-C são distribuídos pelo Centro de Tecnologia da Linguagem Humana e Bioinformática (HULTIG), apenas para fins académicos e de pesquisa.

O Hultig-c é Open Source, facilitando assim o processo de obtenção do conjunto de dados Hultig-c.

• • •

Verifique Serviços Online

Serviços Online

Hultig-C fornece um conjunto de serviços para o processamento automático da linguagem humana, identificando padrões nas coleções de informações armazenadas de forma desorganizada. Possibilitando assim um conjunto de operações normalmente requeridas em PLN.

Esta plataforma está em construção.

Por favor, volte embreve!

• • •

verifique Indexação com OpenWebSpider

Indexação com OpenWebSpider

A forma mais eficiente de organizar e encontrar um arquivo em um banco de dados é através da indexação. Cujo objetivo é descentralizar a produção de informação e distribuí–la de forma extensiva e rápida.

A indexação de Hultig-C começou em janeiro de 2017, com suporte às funcionalidades do OpenWebSpider.

OpenWebSpider é uma web Spider (também conhecido como Tracker ou Web Robot) e um motor de busca, é um programa que navega de forma autónoma em sites da Web, lendo suas páginas e outras informações para criar entradas para um índice de motor de busca.

Esses programas são chamados de aranhas, porque eles visitam muitos sites em paralelo e ao mesmo tempo, abrangendo uma grande área Web, a partir de uma URL e expandindo a leitura através das subpáginas e hiperlinks presentes na URL, criando um banco de dados que permite uma subsequente busca por expressões existentes nos sites visitados; Ou seja, eles visitam websites, seguem links em páginas e registram os dados desses links de cada página visitada, para facilitar a indexação em um banco de dados e a associação de mecanismos de pesquisa.

Possibilitando assim a recuperação automática de dados da Web e atualizando o banco de dados, facilitando a indexação do conteúdo baixado, promovendo assim pesquisas mais rápidas.

Através do OpenWebSpider, é possível, por exemplo, indexar um site e saber quantas vezes e em que lugar um determinado termo aparece. Uma opção rudimentar para este mecanismo seria buscar manualmente, página a página, o termo pesquisado, o que poderia levar a exaustão e aquisição de resultados poucos eficientes.

OpenWebSpider usa GNU General Public license (GPL) e todos os softwares livres (gcc, MySQL, Apache, and PHP). As plataformas onde o OpenWebSpider é testado são: Windows e Linux. Muitas vezes é possível compilá–lo em outras plataformas, mas não é oficialmente suportado.

Para obter mais informações, visite a Página Web www.openwebspider.org.

• • •

Verifique FAQS

Perguntas Frequentes

Quem pode usar o Hultig-C?O Hultig-C apoia a educação, pesquisa e desenvolvimento de tecnologia relacionados da linguística computacional, compartilhando recursos, tais como dados, ferramentas e padrões. Destinando-se assim a todos quantos tenham interesses por áreas afins, e desenvolvem ou pretendam desenvolver programas multilingues, e que consequentemente precisam de matéria prima para dar suporte ao trabalho que tencionem desenvolver.

Como obter o Hultig-C? Os conjuntos de dados Hultig-C são distribuídos pelo Centro de Tecnologia da Linguagem Humana e Bioinformática (Hultig), contate-nos.

O que é OpenWebSpider? OpenWebSpider é um programa que pode ser usado para criar um serviço de pesquisa, cuja finalidade é visitar sites, ler suas páginas e criar um índice de entradas para uma engine de busca.

Qual licença o OpenWebSpider usa? O OpenWebSpider usa a licença GNU General Public License (GPL) e todos os softwares livres (gcc, MySQL, Apache, and PHP).

Onde posso obter mais informações sobre o Hultig-C? Você pode enviar mensagem para a Equipe do Hultig.

Contate–nos

Universidade da Interior
Departamento de Informática
Rua Marquês d'Ávila e Bolama.
6201-001 Covilhã-Portugal.

                         ☎ Telefone: +351 275 242 081 (ext.: 1601)
📠 Fax: +351 275 319 899
✉ Hultig: hultig@di.ubi.pt
                 ✉ Hultig-C: hultig-corpus@di.ubi.pt