Python

NLTK Tokenizing y Pyton (Continuación)

Hola de nuevo cibernautas del blog más random que quizá te puedas encontrar en internet, ignoren eso, solo que no se me ocurría como comenzar ésta entrada. Continuemos con lo pediente del post pasado, si no sabes de que estoy hablando entonces te recomiendo leer la entrada anterior donde hablamos sobre el Tokenizing en NLTK y después puedes volver para entender muchísimo mejor de lo que vamos a hablar aquí, Tokenizing y más Tokenizing, pero ahora vamos un nivel más arriba, ahora vamos a realizar tokens de palabras. ¡Vamos!.

Tokenizing, texto en palabras

Si recordamos un poco sobre Tokenizing sabemos que es “separar algo en algo” para obtener tokens que en algún momento de nuestra vida nos van a servir (y mucho 😀 ).

Básicamente ahora vamos a separar algun texto en palabras indivuduales, lo cual nos generará una lista de palabras resultantes del texto que se haya tratado.

La sintaxis del código es muy similar al post pasado asi que no hay mucho que explicar por aquí.

from nltk.tokenize import word_tokenize
word_tokenize('Hola Mundo del Tokenize.')

En el código anterior importamos el Word_Tokenize de la librería de NLTK para utilizar la funcion word_tokenize() la cúal será la que nos generará nuestra lista de palabras. Si todo está bien podremos ver una salida en nuestra consola como la siguiente.

Tokenizing texto en palabras.

Tokenizing texto en palabras.

¿Cómo funciona?

La función word_tokenize() es como una envoltura que por dentro llama a la función tokenize en una instancia de la clase TreebankWordTokenizer, lo cuál nos resulta el siguiente código con exactamente los mismos resultados.

from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
tokenizer.tokenize('Hola Mundo del Tokenize.')

Como vemos la salida nos produce la misma cantidad de tokens y el mismo valor en cada uno de ellos.

TreebankWordTokenizer()

TreebankWordTokenizer()

Esto trabaja separando las palabras utilizando los espacios y la puntuación, como podemos ver este tipo de tokenize no descarta la puntuación que se encuentra en el texto y las utiliza como tokens.

Más adelante veremos que podemos hacer para éste tipo de casos y como podemos resolverlos.

Hasta aquí esta entrada súper rápida, seguiremos con python y la librería NLTK, con más tokenizing y formas de obtener tokens. Saludos, les dejo como siempre un poco de música, hasta la próxima.

 

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s