python source code of organic_comp_descriptor

Project: XenonPy (GitHub Link)

XenonPy-master
- .github
  - config
    - matplotlibrc_agg
    - matplotlibrc_qtagg
    - macos_env.yml
    - linux_win_env.yml
  - workflows
    - check_env.sh
    - ci.yml
  - fetch_test.txt
- devtools
  - requirements_test.txt
  - conda_py37.yml
  - readthedocs.yml
  - requirements_others.txt
  - conda_py36.yml
- samples
  - storage.ipynb
  - dataset_and_preset.ipynb
  - calculate_descriptors.ipynb
  - sample_data_building.ipynb
  - set1
    - data1.msg
    - data1.csv
    - data1.pkl.z
    - data1.pd.xz
  - set2
    - data2.msg
    - data2.pkl.z
    - data2.csv
    - data2.pd.xz
  - tools.ipynb
  - custom_descriptor_calculator.ipynb
  - mp_ids.txt
- Makefile
- hooks
  - build
- readthedocs.yml
- LICENSE
- xenonpy
  - utils
    - useful_cls.py
    - useful_func.py
    - parameter_gen.py
    - __init__.py
    - math
      - __init__.py
      - product.py
  - datatools
    - transform.py
    - preset.py
    - splitter.py
    - __init__.py
    - dataset.py
    - mp_ids.txt
  - mdl
    - mdl.py
    - modelset.py
    - descriptor.py
    - model.py
    - __init__.py
    - property.py
    - method.py
    - base.py
  - __doc__.py
  - _conf.py
  - __main__.py
  - __init__.py
  - descriptor
    - compositions.py
    - frozen_featurizer.py
    - structure.py
    - __init__.py
    - fingerprint.py
    - cgcnn.py
    - base.py
  - conf.yml
  - visualization
    - heatmap.py
    - __init__.py
  - model
    - utils
      - metrics.py
      - __init__.py
    - sequential.py
    - training
      - lr_scheduler.py
      - optimizer.py
      - dataset
        array.py
        __init__.py
        cgcnn.py
      - loss.py
      - extension
        validator.py
        persist.py
        __init__.py
        tensor_convert.py
      - __init__.py
      - clip_grad.py
      - checker.py
      - trainer.py
      - base.py
    - extern.py
    - nn
      - layer.py
      - wrap.py
      - __init__.py
    - __init__.py
    - cgcnn.py
  - contrib
    - extend_descriptors
      - __init__.py
      - descriptor
        organic_comp_descriptor.py
        mordred_descriptor.py
        frozen_featurizer_descriptor.py
        __init__.py
      - README.md
    - .DS_Store
    - foo
      - __init__.py
      - descriptor
        foo.py
        __init__.py
    - __init__.py
    - README.md
    - sample_codes
      - iQSPR_V
        iQSPR_V.py
        iQSPR_VF.py
        iQSPR_F.py
      - combine_fragments
        combine_fragments.py
      - Binary_likelihood
        binary_likelihood.ipynb
      - Random_NN_structure
      - README.md
      - Fragment_Ngram
        Fragment_Ngram.ipynb
    - extend_NGram
      - new_ngram.py
      - __init__.py
  - inverse
    - iqspr
      - iqspr.py
      - estimator.py
      - modifier.py
      - __init__.py
    - __init__.py
    - base.py
- conda_env
  - osx.yml
  - cuda10.yml
  - cpu.yml
  - cuda9.yml
- .pylintrc
- setup.py
- docker
  - cuda10
    - Dockerfile
  - cpu
    - Dockerfile
  - cuda9
    - Dockerfile
  - aiida
    - Dockerfile
- licences
  - .gitkeep
- .style.yapf
- setup.cfg
- README.md
- tests
  - utils
    - test_parameter_gen.py
    - test_product.py
    - test_gadget.py
  - extend_descriptors
    - descriptor
      - test_mordred.py
  - datatools
    - test_preset.py
    - test_dataset.py
    - test_boxcox.py
    - test_scaler.py
    - ids.txt
    - test_data_select.py
  - models
    - test_utils.py
    - test_trainer.py
    - test_sequential.py
    - test_base_runner.py
    - test_checker.py
    - test_extension.py
  - mdl
    - test_mdl.py
  - foo
    - descriptor
      - test_foo.py
  - descriptor
    - test_structures.py
    - test_fingerprint.py
    - 2.cif
    - test_elemental.py
    - test_base_desc.py
    - test_crystal_graph.py
    - test_frozen_feature.py
    - 1.cif
  - inverse
    - test_base_inverse.py
    - polymer_test_data.csv
    - test_iqspr.py
- requirements.txt
- Dockerfile
- .gitignore
- docs
  - Makefile
  - source
    - xenonpy.utils.rst
    - xenonpy.datatools.rst
    - xenonpy.model.nn.rst
    - contribution.rst
    - copyright.rst
    - xenonpy.model.training.rst
    - xenonpy.utils.math.rst
    - xenonpy.mdl.rst
    - xenonpy.descriptor.rst
    - xenonpy.model.utils.rst
    - api.rst
    - features.rst
    - tutorial.rst
    - xenonpy.contrib.extend_descriptors.descriptor.rst
    - favicon.ico
    - xenonpy.model.training.extension.rst
    - xenonpy.contrib.rst
    - tutorials
      - 1-dataset.rst
      - 2-descriptor.rst
      - 3-visualization.rst
    - xenonpy.model.training.dataset.rst
    - xenonpy.rst
    - changes.rst
    - xenonpy.visualization.rst
    - xenonpy.inverse.rst
    - modules.rst
    - xenonpy.model.rst
    - xenonpy.inverse.iqspr.rst
    - xenonpy.contrib.extend_descriptors.rst
    - index.rst
    - xenonpy.contrib.foo.rst
    - conf.py
    - contact.rst
    - _templates
      - placehoder
    - xenonpy.contrib.foo.descriptor.rst
    - _static
      - placehoder
    - installation.rst
  - make.bat
- MANIFEST.in

#  Copyright (c) 2019. stewu5. All rights reserved.
#  Use of this source code is governed by a BSD-style
#  license that can be found in the LICENSE file.e

from collections import Counter

import pandas as pd
from rdkit import Chem
from xenonpy.descriptor import Compositions
from xenonpy.descriptor.base import BaseFeaturizer


class OrganicCompDescriptor(BaseFeaturizer):

    def __init__(self, n_jobs=-1, *, featurizers='all', on_errors='raise', return_type='any'):
        """
        A featurizer for extracting XenonPy compositional descriptors from SMILES or MOL
        """
            
        # fix n_jobs to be 0 to skip automatic wrapper in XenonPy BaseFeaturizer class
        super().__init__(n_jobs=0, on_errors=on_errors, return_type=return_type)
        self._cal = Compositions(n_jobs=n_jobs, featurizers=featurizers, on_errors=on_errors)

    def featurize(self, x):
        # check if type(x) = list
        if isinstance(x, pd.Series):
            x = x.tolist()
        if not isinstance(x, list):
            x = [x]
        # check input format, assume SMILES if not RDKit-MOL
        if not isinstance(x[0], Chem.rdchem.Mol):
            x_mol = []
            for z in x:
                x_mol.append(Chem.MolFromSmiles(z))
                if x_mol[-1] is None:
                    raise ValueError('can not convert Mol from SMILES %s' % z)
        else:
            x_mol = x
        
        # convert to counting dictionary
        mol = [Chem.AddHs(z) for z in x_mol]
        d_list = [dict(Counter([atom.GetSymbol() for atom in z.GetAtoms()])) for z in mol]

        self.output = self._cal.transform(d_list)
        
        return self.output
    
    @property
    def feature_labels(self):
        return self.output.columns