Após algumas semanas de suspense, chegamos finalmente à nossa segunda e última parte da saga do dicionário Houaiss.
Como devem estar lembrados, a primeira parte se dispôs a desmontar a ofuscação usada nos arquivos do dicionário para permitir nossa posterior análise, com o simples e justo objetivo de importá-lo para o Babylon, cujas funcionalidades de busca são bem superiores.
Feito isso, agora nos resta entender a estrutura interna do Houaiss para montar um conversor que irá ajudar o Babylon Builder a construir nosso Houaiss-Babylon. Simples, não?
A primeira parte de toda análise é a busca por padrões com um pouco de bom senso. O Houaiss armazena suas definições em um conjunto de arquivos de nome deahNNN.dhx (provavelmente deah de Dicionario Eletrônico Antônio Houaiss). Os NNN variam de 001 - o maior arquivo - até 065, com algumas poucas lacunas, em um total de 53 arquivos originais.
O nosso rústico importador fez o trabalho de desofuscar todos os 53 arquivos usando a mesma lógica encontrada pelo WinDbg: somar o valor 0x0B para cada byte do arquivo. Dessa forma foram gerados 53 arquivos novos no mesmo diretório, porém com a extensão TXT.
Partindo do bom senso, abriremos o arquivo maior, deah001.txt, e abriremos o próprio dicionário Houaiss, em busca de um padrão que faça sentido. Como poderemos ver na figura abaixo, o padrão inicial não é nem um pouco complicado.
As duas primeiras observações do formato do arquivo nos dizem que (1) o primeiro caractere de cada linha indica o conteúdo dessa linha, e que (2) a formatação dos caracteres é feita dentro de um par de chaves {}.
Dessa forma, podemos começar a construir nosso interpretador de arquivos do Houaiss em seu formato básico.
#include <iostream> #include <string> int main() { char cmd; // comando da linha atualmente lida string line; // linha atualmente lida int count = 0; // contador de palavras while( getline(cin, line) ) { cmd = line[0]; // guardamos o comando line.erase(0, 1); // tiramos o comando da linha format(line); // formatação da linha (explicações adiante) switch( cmd ) // que comando é esse? { case '*': // verbete ++count; cout << '\n' << line << '\n'; break; case ':': // definição cout << line << "<br>\n"; break; } } return 0; }
Simples e funcional. Com esse código já é possível extrair o básico que precisamos de um dicionário: os vocábulos e suas definições.
Para conseguir mais, é necessário mais trabalho.
Formatação
A formatação segue o estilo já identificado, de forma que podemos aos poucos montar um interpretador de formatação para HTML, que é o formato reconhecido pelo Babylon Builder. Podemos seguir o seguinte molde, chamado no exemplo de código anterior:
void format(string& str) { string::size_type pos1 = 0; string::size_type pos2 = 0; while( (pos1 = str.find('<')) != string::npos ) str.replace(pos1, 1, "<"); while( (pos1 = str.find('>')) != string::npos ) str.replace(pos1, 1, ">"); while( (pos1 = str.find('{')) != string::npos ) { if( pos1 && str[pos1 - 1] == '\\' ) // caractere de escape str.replace(pos1 - 1, 2, "{"); else { string subStr; pos2 = str.find('}', pos1); if( pos2 != string::npos ) subStr = str.substr(pos1 + 1, pos2 - pos1 - 1); else subStr = str.substr(pos1 + 1); istringstream is(subStr); string fmt; string word; is >> fmt; getline(is, word); if( word[0] == ' ' ) word.erase(0, 1); if( fmt.find("\\i") != string::npos ) word = "<i>" + word + "</i>"; if( fmt.find("\\b") != string::npos ) word = "<b>" + word + "</b>"; if( fmt.find("\\f20") != string::npos ) word = "<font style=\"text-transform: uppercase;\">" + word + "</font>"; if( fmt.find("\\super") != string::npos ) word = "<font style=\"vertical-align: super;\">" + word + "</font>"; if( pos2 != string::npos ) str.replace(pos1, pos2 - pos1 + 1, word); else str.replace(pos1, pos2, word); } } }
Algumas partes ainda estão feias, eu sei. Mas, ei, isso é um código de ráquer, não é mesmo? Além do mais, se isso não é desculpa suficiente, estamos trabalhando em uma versão beta.
A partir dessas duas funções é possível dissecar o primeiro arquivo do dicionário, e assim, construirmos a primeira versão interessante do Houaiss no Babylon.

Como é normal a qualquer dicionário do Babylon, podemos instalá-lo simplesmente clicando duas vezes no arquivo (em uma máquina com Babylon previamente instalado).
O projeto atual está um tanto capenga, mas já desencripta os arquivos do Houaiss e gera o projeto do Babylon Builder sozinho. Em anexo já está um projeto do Babylon Builder. Basta copiar o arquivo Houaiss.txt para a pasta do projeto e gerar o projeto do Babylon.
Para os interessados em incrementar a versão atual, sintam-se à vontade.







April 21st, 2008 at 7:28 pm
Eu tenho um dicionário Houaiss 2.0 e o Babylon 7, mas não entendo nada de computação e portanto não entendi o que devo fazer para convertê-lo ao formato Babylon. Baixei a pasta acima [VERSÃO ATUAL] mas não tenho a mínima idéia de como usá-la.
1. Da onde extraio o arquivo [Houaiss.txt]?
2. Qual é a 'pasta do projeto'?
3. Uma vez localizado o arquivo [Houaiss.txt], se eu copiá-lo para a referida pasta, o que devo fazer? Clicar aonde?
April 22nd, 2008 at 5:51 am
Olá, Angélica.
Por essa eu não esperava. As respostas para suas perguntas são:
1. Não extrai. Ele deve ser gerado automaticamente no diretório de instalação do Houaiss, pasta Dicionario.
2. A "pasta do projeto" é o diretório que você extraiu do linque "versão atual". Isso é, depois de você ter compilado o projeto (que é a geração do executável que faz todo o trabalho).
3. Após gerado o arquivo Houaiss.txt, você deveria copiá-lo para a pasta do projeto.
Bem, aqui vão algumas dicas e passos para fazer a conversão, mesmo sem conhecimentos de programação e informática avançada. Disponibilizei aqui uma versão compilada do projeto. É esse executável que você irá usar para todo o trabalho.
1. Primeiro, certifique-se que instalou o Houaiss com a opção de copiar os arquivos para o disco rígido.
2. Copie o arquivo Houaiss2Babylon.exe para a pasta de instalação do Houaiss e execute. A conversão irá demorar alguns minutos, e durante esse tempo você deve ver uma tela preta sendo exibida. Se você usa Windows Vista, talvez seja necessário executar o programa com direitos de administrador.
3. Quando a tela preta sumir, o programa já deve ter desencriptado o Houaiss, e dentro da pasta Dicionario de instalação existirão alguns arquivos TXT que você pode apagar, e o Houaiss.txt, que você NÃO deve apagar ainda.
4. Para o resto da conversão, você precisa do Babylon Builder. Instale-o antes de continuar.
5. Copie o arquivo de projeto (Houaiss.grp) e o ícone (Houaiss.ico), que estão na pasta de projeto, para a pasta Dicionario onde está o arquvo Houaiss.txt.
6. Dê um duplo clique no arquivo Houaiss.grp. Para que tudo funciona é ESSENCIAL que na mesma pasta estejam os arquivos Houaiss.ico e Houaiss.txt, este gerado nos passos anteriores.
7. Quando a tela do Babylon Builder aparecer, escolha a opção Quick Build. Espere a conversão terminar.
8. Se você chegou até aqui, um arquivo de dicionário Babylon foi gerado. Se não, algum problema ocorreu. Nesse caso, descreva o que aconteceu, por favor.
[]s
April 22nd, 2008 at 4:08 pm
MUITO OBRIGADO pelas dicas. Segui todas (menos a do Administrador, apesar de estar usando Windows Vista). Será que foi este o problema?
É que cheguei até o ítem 7, mas quando o Babylon builder entrou em ação recebi oma mensagem de erro.
Copiei a janela do erro com Snagit e se houver um modo posso enviá-la. Para tanto precisaria de um e-mail... O meu já está anotado acima.
Mesmo assim, mais uma vez obrigada. VALEU!!!
April 22nd, 2008 at 5:31 pm
Oi novamente,
Tentei mais vezes, agora como administradora mas mesmo assim não deu certo.
A mensagem de erro é a seguinte:
Value of '-2' is not valid for 'Value'. 'Value'should be between 'minimum' and 'maximum'.
Parameter name: Value
Mas não é só o '-2' que tem problema. Quase todos os valores entre 1 e 18 trazem a mesma mensagem. E não há como ignorá-las, pois a construção do glossário pára em 18%, volta para o começo e pára de novo.
Obrigada pela atenção,
Angélica
April 23rd, 2008 at 9:05 am
Olá, Angélica.
Eu acho que você está com um problema parecido com o meu durante alguns testes iniciais. Tente fazer o seguinte: você já tem o Houaiss.txt e todos os arquivos estão na mesma pasta, certo? Tente abrir um prompt de comando dentro dessa pasta e digite os seguintes comandos:
set path=%path%;%programfiles%\Babylon\Babylon Glossary Builder
BuilderWizard /Build Houaiss.gpr
Se dessa forma funcionar, no final da conversão deverá ser aberto um arquivo no Bloco de Notas indicando que está tudo OK.
Caso não dê certo, por favor, me avise, que irei tentar corrigir quando tiver um tempinho, ok?
[]s
April 23rd, 2008 at 10:10 am
Oi Wanderley,
O Bloco de Notas abriu, mas disse que a operação é inválida:
Start building...
Invalid project file name: Houaiss.gpr
Só não sei se abri o prompt da maneira correta. Fui para Iniciar > Procurar, escrevi 'cmd' e selecionei 'cmd.exe' e o prompt se abriu. Depois eu simplesmente colei o comando sugerido acima e dei um 'enter'.
Mais uma vêz, MUITO obrigada!
April 23rd, 2008 at 10:50 am
DEU CERTO!!!
Agora eu consegui abrir o prompt DENTRO da pasta (usando a função 'Open Command Prompt here' do menu de contexto com a tecla SHIFT), e tudo correu as mil maravilhas.
O dicionário já esta instalado no Babylon e funcionando. Se você fizer novas modificaçôes avise-nos. Marcarei este site e voltarei sempre em busca de modificações.
MUITÍSSIMO OBRIGADA,
Angélica
April 23rd, 2008 at 1:39 pm
Olá, Angélica.
Puxa, fico muito feliz que você tenha conseguido. Sinceramente, não imaginei que alguém fosse realmente usar minha solução. Fico mesmo muito contente.
Quando tiver mais tempo pretendo fazer mais análises do que dá pra melhorar na conversão. Acredito que uma tela descrevendo os passos (que nem o Babylon Builder) deve ajudar bastante os usuários.
[]s
May 18th, 2008 at 8:33 am
Olá, Caloni.
Esbarrei por aqui com seu projeto e achei interessante, compilei com o Visual C++ 2008 Express Edition. Foi criado o arquivo Houaiss2Babylon.exe mais ele não está convertendo os arquivos.
A mensagem do Debug é:
'Houaiss2Babylon.exe': Loaded 'C:\Tests\Houaiss2Babylon\Release\Houaiss2Babylon.exe', Symbols loaded.
'Houaiss2Babylon.exe': Loaded 'C:\WINDOWS\system32\ntdll.dll'
'Houaiss2Babylon.exe': Loaded 'C:\WINDOWS\system32\kernel32.dll'
'Houaiss2Babylon.exe': Loaded 'C:\WINDOWS\system32\user32.dll'
'Houaiss2Babylon.exe': Loaded 'C:\WINDOWS\system32\gdi32.dll'
'Houaiss2Babylon.exe': Loaded 'C:\WINDOWS\system32\advapi32.dll'
'Houaiss2Babylon.exe': Loaded 'C:\WINDOWS\system32\rpcrt4.dll'
'Houaiss2Babylon.exe': Loaded 'C:\WINDOWS\WinSxS\x86_Microsoft.VC90.CRT_1fc8b3b9a1e18e3b_9.0.21022.8_x-ww_d08d0375\msvcr90.dll'
'Houaiss2Babylon.exe': Loaded 'C:\WINDOWS\WinSxS\x86_Microsoft.VC90.CRT_1fc8b3b9a1e18e3b_9.0.21022.8_x-ww_d08d0375\msvcp90.dll'
'Houaiss2Babylon.exe': Loaded 'C:\WINDOWS\system32\shimeng.dll'
'Houaiss2Babylon.exe': Loaded 'C:\WINDOWS\system32\imm32.dll'
'Houaiss2Babylon.exe': Loaded 'C:\WINDOWS\system32\lpk.dll'
'Houaiss2Babylon.exe': Loaded 'C:\WINDOWS\system32\usp10.dll'
'Houaiss2Babylon.exe': Loaded 'C:\WINDOWS\system32\msvcrt.dll'
'Houaiss2Babylon.exe': Unloaded 'C:\WINDOWS\system32\shimeng.dll'
The program '[1260] Houaiss2Babylon.exe: Native' has exited with code -1 (0xffffffff).
Minha experiência com C++ é quase zero, sem querer abusar (já abusando) tem alguma dica?
May 19th, 2008 at 9:09 am
Olá, Ricardo.
Uma dica rápida: use o linque que eu disponibilizei com o projeto compilado e siga as instruções nos comentários anteriores.
Uma dica mais demorada: depure passo-a-passo e me diga em que ponto que o programa está saindo. A partir daí teremos dados mais concretos para dizer o que está acontecendo.
[]s
May 19th, 2008 at 2:43 pm
Olá Caloni.
Eu bem que já havia tentado, mais o linque está quebrado.
Quanto à dica mais demorada, o Visual C++ 2008 Express importa o projeto (The solution or project you are openig was created in a previous version of Visual Studio.) e compila de forma aparentemente normal só que o executável quando colocado na pasta de instalação do Houaiss e devidamente acionado não gera arquivo nenhum.
Obrigado pela atenção.
May 23rd, 2008 at 10:20 pm
Muito obrigado a todos,
Não sei NADA de programação. Pra ser mais preciso, comecei - e logo desisti - de um famoso curso da UFMG de programação em C. Meu programa mais complexo pedia que o usuario inserisse um numero e desse enter, ai o meu "programaço" pedia um seguindo numero e quando o usuario apertasse enter o meu "programaço" somava os dois numeros, dividia-os por 2 e mostrava o resultado!!! Uau!!! Que maximo!!! Mas foi util pois pelo menos eu pude compilar o programinha para extrair os dados do Houaiss... Muita tentativa e erro ate eu entender o que estava fazendo, mas funcionou... Agora vou tentar passar a base de dados para SlovoEd (PalmOS).
May 26th, 2008 at 8:24 am
Olá novamente, Ricardo.
Disponibilizei novamente uma versão compilada no mesmo linque dos comentários. Tente usar esta versão.
[]s
May 26th, 2008 at 8:25 am
Olá, Major.
Fico feliz que tenha conseguido compilar e usar meu pequeno e singelo programinha. Você é uma inspiração para que outros tentem mais um pouco.
[]s
July 9th, 2008 at 4:49 pm
Estou interessadíssimo nisso, mas tive algum problema. Quando executo o Houaiss2Babylon nada acontece. A tela do cmd só pipoca rapidamente na tela. Quando tento executar pelo cmd, entro o comando e nada. Minha pasta Dicionário tem vários arquivos dhx.
July 10th, 2008 at 2:00 pm
Olá, Roberto.
Lembre-se que para aplicar a conversão é necessário que você tenha o Houaiss, o Babylon e o Babylon Builder instalados em seus lugares padrões. Caso você tenha, poderia me informar o sistema operacional utilizado e o idioma?
[]s
July 11th, 2008 at 9:31 am
Caloni,
Tive o mesmo problema do Roberto. Tenho o Houaiss instalado assim como o Babylon e ainda não instalei o Babylon Builder. Uso Windows Vista em portugues. Não sei o que fazer, pois acho que sei menos de programação que o Major!!!
July 11th, 2008 at 10:26 am
Olá, Fabrício.
Não se preocupe. Apenas peço que tenha paciência que em breve irei lançar uma versão mais robusta com geração de log, o que me permitirá descobrir o que está acontecendo nas suas execuções.
No momento, poderia fazer mais um teste? Tente executar o programa dentro de um prompt de comando com direitos administrativos E nível de integridade alto. Você consegue isso clicando com o outro botão do mouse sobre o atalho para o prompt e escolhendo "Executar como Administrador", ou algo do tipo.
Obrigado a todos pelo feedback dos problemas da versão beta.
[]s
July 11th, 2008 at 10:54 am
Olá Caloni
Executei como vc pediu e nada aconteceu. O meu Houaiss é a versão 1.0.5, de agosto de 2002. Será que é por isso que não dá certo?
July 13th, 2008 at 8:41 am
Olá caloni,
Estou interessadíssimo nisso, mas tive algum problema. Quando executo o Houaiss2Babylon na pasta c:\houaiss nada acontece, o mesmo se executo na pasta c:\houaiss\dicionario. A tela do cmd só pipoca rapidamente na tela. Quando tento executar pelo cmd, entro o comando e nada ocorre. Uso o Windows XP sp2, houaisss versao 1.05, instalei o babylon 7 e o babylon builder.
Agradeço pela atenção.
July 14th, 2008 at 2:22 am
Olá a todos.
Foi gerada uma nova versão com diversas mensagens de erro. Se puderem testar novamente, agradeço muito.
[]s
July 14th, 2008 at 9:33 am
[...] de vários comentários de pessoas tendo problemas em converter seus dicionários Houaiss para o formato Babylon, resolvi [...]
July 14th, 2008 at 10:18 am
Oi Caloni
Testei essa nova versão, ela dá várias mensagens de erro mesmo, mas não cria os arquivos txt. As mensagens são para cada arquivo da pasta Dicionario (Erro abrindo arquivo "C:\ArquivodeProgramas\Houaiss\Dicionario\deah***.dhx". Erro de sistema numero 3"). Essa mensagem aparece também com a extensão txt.
Por enquanto, obrigado por tentar nos ajudar!!
July 15th, 2008 at 8:34 am
Olá, Fabricio.
A mensagm do erro número 3 é "O sistema não pode encontrar o caminho especificado". Você poderia verificar se o caminho que está sendo mostrado na mensagem é exatamente o que existe em sua máquina? Grato.
[]s