pymed

To use pymed package to search pubmed database, we need to have an NCBI account and an ‘API’ key generated from NCBI account settings. After this basic info, I query Pubmed with different titles to get the authors information. My code for this task:
from pymed import PubMed
import pandas as pd
from difflib import SequenceMatcher
import json
import os
#Some Basic Settings
pubmed = PubMed(tool="PubMedSearcher", email="myNCBIAccountEmail")
my_api_key = 'MyAPI key'
pubmed.parameters.update({'api_key': my_api_key})
pubmed._rateLimit = 10

#Append results one by one to avoid repeated searches in case bugs occured
def append_record(record):
    with open('pub_files.txt', 'a') as f:
        json.dump(record, f)
        f.write(os.linesep)

def getpubaus(authos_pub):
    '''
    get lastname and initials from pubmed author dicts
    '''
    aus = list()
    for oneau in authos_pub:
        onename = oneau['initials']
        if onename is None:
            onename = oneau['lastname']
        else:
            onename = oneau['initials']
            if onename is None:
                continue
            else:
                onename = oneau['initials'] + " " + oneau['lastname'].upper()
            #oneau['initials']+" "+
        if onename is None:
            #print(authos_pub)
            continue
        aus.append(onename)
    return ",".join(aus)


## PUT YOUR SEARCH TERM HERE ##
search_terms = allcitations['title_source'].values.tolist()
articleInfo = []
tip = 0
for i in range(len(search_terms)):
    search_term = search_terms[i]
    authors_source = str(aus_terms[i])
    authors_source = authors_source.split(",")
    authors_source_last = authors_source[0]
    authors_source_last = authors_source_last.split(" ")
    authors_source_last = authors_source_last[-1].strip()
    authors_source_last = authors_source_last.upper()
    title_source = title_terms[i]
    title_source = title_source.strip().upper()
    if i > 367:
        #pass
        break

    print(f"Pubmed search for {i}th article:\n#######################")
    print(search_term)
    print("#######################")
    results = pubmed.query(search_term, max_results=20)
    articleList = []
    #

    for article in results:
    # Print the type of object we've found (can be either PubMedBookArticle or PubMedArticle).
    # We need to convert it to dictionary with available function
        articleDict = article.toDict()
        articleList.append(articleDict)

    # Generate list of dict records which will hold all article details that could be fetch from PUBMED API
    found = False
    for article in articleList:
        #Sometimes article['pubmed_id'] contains list separated with comma - take first pubmedId in that list - thats article pubmedId
        #{'lastname': 'Emperador-Melero', 'firstname':
        #{'lastname': 'Tse', 'firstname': 'Wai-Pui', '...
        #'lastname': 'Oliva', 'firstname': 'Rosario', 'initials': 'R',
        authors_pubmed = article['authors']
        if len(authors_pubmed) == 0:
            continue
        #print(authors_pubmed)
        #print(authors_pubmed[0]['lastname'])
        lastau_pubmed = authors_pubmed[0]['lastname']
        if lastau_pubmed is None:
            lastau_pubmed = ""
        lastau_pubmed = lastau_pubmed.upper()
        #initau_pubmed = authors_pubmed[0]['initials']
        #if initau_pubmed is None:
        #    initau_pubmed = " "
        #initau_pubmed = initau_pubmed.strip()
        title_pubmed = article['title']
        pubmedId = article['pubmed_id'].partition('\n')[0]
        #print("Current search result:")
        #print(title_pubmed)
        #print("authors")
        au_pub = getpubaus(article['authors'])
        #print(au_pub)
        #print("---------------------")
        if SequenceMatcher(None, title_pubmed.upper(), title_source).ratio() > 0.8:
            found = True
            print("Find match for:")
            print(title_pubmed)
            #append df infomation
            au_pub = getpubaus(article['authors'])
            print(au_pub)
            print("-----------------------\n")
            my_dict = {u'index_source':i,
                    u'pubmed_id':pubmedId,
                    u'title_pub':article['title'],
                    u'title_source':title_terms[i],
                    u'authors_pub':au_pub,
                    u'clusterid_google':id_terms[i],
                    u'titleMatch':'High'
                    }
            articleInfo.append(my_dict)
            append_record(my_dict)
            
            break
        if lastau_pubmed is not None and lastau_pubmed == authors_source_last:
            found = True
            print(f"Find potential match for:{title_source}")
            print(title_pubmed)
            #append
            au_pub = getpubaus(article['authors'])
            print(au_pub)
            print("-----------------------\n")
            my_dict = {u'index_source':i,
                    u'pubmed_id':pubmedId,
                    u'title_pub':article['title'],
                    u'title_source':title_terms[i],
                    u'authors_pub':au_pub,
                    u'clusterid_google':id_terms[i],
                    u'titleMatch':'Low'
                    }
            articleInfo.append(my_dict)
            append_record(my_dict)
            break
        '''
        pubmedId = article['pubmed_id'].partition('\n')[0]
        # Append article info to dictionary 
        articleInfo.append({u'pubmed_id':pubmedId,
                        u'title':article['title'],
                        u'keywords':article['keywords'],
                        u'journal':article['journal'],
                        u'abstract':article['abstract'],
                        u'conclusions':article['conclusions'],
                        u'methods':article['methods'],
                        u'results': article['results'],
                        u'copyrights':article['copyrights'],
                        u'doi':article['doi'],
                        u'publication_date':article['publication_date'], 
                        u'authors':article['authors']})
        '''
    if found==False:
        #appendNone
        #print(len(id_terms))
        my_dict = {u'index_source':i,
                    u'pubmed_id':"",
                    u'title_pub':"",
                    u'title_source':title_terms[i],
                    u'authors_pub':"",
                    u'clusterid_google':id_terms[i],
                    u'titleMatch':'None'
                    }
        articleInfo.append(my_dict)
        append_record(my_dict)
    # Generate Pandas DataFrame from list of dictionaries
    #articlesPD = pd.DataFrame.from_dict(articleInfo)
    #export_csv = articlesPD.to_csv (r'pubtest.csv', index = None, header=True) 

#Print first 10 rows of dataframe
#print(articlesPD.head(10))
articlesPD = pd.DataFrame.from_dict(articleInfo)
articlesPD.to_csv(r'pubResults2.csv', index = None, header=True) 

if allcitations.shape[0] == articlesPD.shape[0]:
    allcitations_update = pd.concat([allcitations, articlesPD], axis=1)
    allcitations_update.to_csv(r'all_pubmed.csv',index = None,header = True)
#for au in articlesPD.loc[:,"authors_pub"]:
#    print(au)
Pubmed_search_python

CATALOG

FEATURED TAGS

FRIENDS