Instalando StopWords en NLTK

Hola de nuevo, hoy continuaremos con una entrada de Python, si recordamos ya hemos trabajado anteriormente con los Tokens. Hoy toca el turno de algo que viene directamente relacionado con el procesamiento de texto, las StopWords“, que como su traducción en español son las palabras que digamoslo de ésta manera no funcionan para nada (que si esto lo ve un lingüista seguro me asesina 😛 ), pero son palabras que literalmente no tienen un significado.

En nuestros textos ¿se imaginan cuantas palabras vacias podriamos encontrar?, demasiadas y de ellas regularmente no se pueden obtener muchas cosas, aunque no son del todo inútules. NLTK tiene integrado las stopwords comunes para cada lenguaje, no son todos los lenguajes pero si son bastantes donde por supuesto esta el inglés y el español.

Instalación

Si estamos utilizando Anaconda podemos saber si están instaladas las stopwords si ejecutamos el siguiente codigo y obtenemos un error.

from nltk.corpus import stopwords
stopwords.fileids()

Si al ejecutar el codigo anterior obtenemos una pantalla como la siguiente donde nos dice que la parte de las stopwords no esta descargada y que la podemos descargar, entonces aún no están instaladas.

Screenshot (42)

Para instalar debemos de ejcutar el siguiente codigo desde la consola de Anaconda o el CMD de Python.

import nltk
nltk.download()

Al ejecutarlo se abirá una ventana similar a la siguiente pantalla en donde encontraremos los paquetes que componen NLTK.

Screenshot (43)

Para descargar el paquete de Stopwords lo que debemos hacer es ir a la pestaña de “Corpora” y buscar la opcion de “StopWords”.

Screenshot (44)

Presionar el botón de “Download” y esperar a que se descarge nuestro paquete, al término de la descarga vemos la fila de color verde, lo cual indica que ya lo tenemos instalado y listo para utilizar.

Screenshot (45)

Ahora podemos volver a ejecutar el código de arriba y vemos los lenguajes que soporta el paquete de las stopwords.

Screenshot (46)

Ahora en el próximo post vamos a utilizar las Stopwords para obtener infomación más concisa del texto.

Hasta el próximo post y si tienen alguna duda en los comentarios o por mis redes sociales.

José Antonio Mora

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s