Clean Data using NLTK

disruptfwd8 · May-12-2018, 11:21 PM

Need help creating a function that cleans data and puts frequency in dictionary.

import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import string

#create a function and dictionary
def clean_data(tokenizeFreq)
token_frequency_dic = {}

# load data
article = open('sample_data.txt','r')
text = article.read()
file.close()

# split into words
tokens = word_tokenize(text)

# convert to lower case
tokens = [w.lower() for w in tokens]

# remove punctuation from each word
table = str.maketrans('', '', string.punctuation)
stripped = [w.translate(table) for w in tokens]

# remove remaining tokens that are not alphabetic
words = [word for word in stripped if word.isalpha()]

# filter out stop words and sort
stop_words = set(stopwords.words('english'))
words = [w for w in words if not w in stop_words]
words.sort()

# print frequency distribution
req = nltk.FreqDist(words)
for k,v in req.items():
    print(str(k) + ': ' + str(v))

can this be condense into a for loop...

Possibly Related Threads…
Thread		Author	Replies	Views	Last Post
	NLTK	danandu	7	1,046	Oct-30-2025, 02:31 PM Last Post: noisefloor
	nltk installs but cannot be imported [SOLVED]	sheepog	3	2,776	Jun-07-2025, 10:03 PM Last Post: Larz60+
	get nltk data	Pedroski55	7	11,475	Aug-12-2024, 06:16 AM Last Post: Pedroski55
	Can i clean this code ?	BSDevo	8	3,420	Oct-28-2023, 05:50 PM Last Post: BSDevo
	Clean Up Script	rotw121	2	2,347	May-25-2022, 03:24 PM Last Post: rotw121
	Help with simple nltk Chatbot	Extra	3	4,800	Jan-02-2022, 07:50 AM Last Post: bepammoifoge
	How to clean UART string	Joni_Engr	4	4,645	Dec-03-2021, 05:58 PM Last Post: deanhystad
	Saving a download of stopwords (nltk)	Drone4four	1	17,365	Nov-19-2020, 11:50 PM Last Post: snippsat
	Installing nltk dependency	Eshwar	0	3,244	Aug-30-2020, 06:10 PM Last Post: Eshwar
	How to clean session mqtt	SayHiii	0	2,922	Dec-09-2019, 07:56 AM Last Post: SayHiii

Clean Data using NLTK

User Panel Messages

Announcements